論文の概要: A Modular Architecture for Typologically Controlled Lexicon Generation
- arxiv url: http://arxiv.org/abs/2605.28824v1
- Date: Tue, 07 Apr 2026 04:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.537049
- Title: A Modular Architecture for Typologically Controlled Lexicon Generation
- Title(参考訳): タイポロジー制御されたレキシコン生成のためのモジュラーアーキテクチャ
- Authors: Sankalp Tattwadarshi Swain, Dhruv Kumar,
- Abstract要約: PHOIBLEは、発音可能で、タイプミス的、意味的に構造化された人工レキシコンを構築するためのフレームワークである。
確率文法は、音韻的コヒーレンスとタイプロジカルリアリズムの両方に基づいて決定論的およびランダムなベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 1.5718921092089344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing artificial lexicons that are pronounceable, typologically plausible, and semantically structured remains an open challenge in computational linguistics. Existing conlang generators either lack formal phonotactic guarantees or delegate generation to opaque, non-reproducible LLM-based pipelines. We propose a modular framework that samples phoneme inventories from PHOIBLE, generates word forms under interchangeable phonological grammars (deterministic, OT, and MaxEnt), and assigns meanings via a Swadesh--Leipzig--Jakarta ontology with explicit form--meaning alignment. Evaluation on character $n$-gram perplexity, log-likelihood, and KL divergence against PHOIBLE across lexicon sizes of 100-5,000 forms shows that probabilistic grammars consistently outperform deterministic and random baselines on both phonotactic coherence and typological realism.
- Abstract(参考訳): 代用可能、タイプ論的に妥当、意味的に構造化された人工辞書を構築することは、計算言語学においてオープンな課題である。
既存のコンランジェネレータは、フォーマルな音韻保証を欠いているか、不透明で再現不可能なLLMベースのパイプラインに委譲する。
我々は,PHOIBLEから音素在庫を抽出し,交換可能な音韻文法(決定論的,OT,MaxEnt)の下で単語形式を生成し,スワデシュ-ライプツィヒ-ジャカルタオントロジーを明示的な形式的アライメントで意味を割り当てるモジュラーフレームワークを提案する。
文字$n$-gramのパープレキシティ,対数類似度,および100-5,000の語彙サイズにわたるPHOIBLEに対するKLのばらつきの評価は,確率文法が決定論的およびランダムなベースラインを音韻的コヒーレンスとタイプロジカルリアリズムの両方で一貫して上回っていることを示している。
関連論文リスト
- Polish phonology and morphology through the lens of distributional semantics [0.05729426778193397]
本研究では,ポーランド語の音韻的構造と形態的構造と意味との関係について,分布意味論を用いて検討する。
意味ベクトルが音素文字列などの語彙下言語単位の情報を取得することを示す。
埋め込みを用いた識別的語彙モデルによる計算モデリングは、理解と生産の精度の高い予測を可能にすると論じる。
論文 参考訳(メタデータ) (2026-03-31T19:26:13Z) - Speech Codec Probing from Semantic and Phonetic Perspectives [49.01048570474675]
音声トークン化器は,マルチモーダルシステムにおいて,音声を大言語モデル (LLM) に接続するために必須である。
新たな証拠は、音声表現において「意味」と呼ばれるものは、テキスト由来の意味論と一致しないことを示している。
論文 参考訳(メタデータ) (2026-03-11T03:32:25Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - Large Language Models as Quasi-crystals: Coherence Without Repetition in Generative Text [0.0]
エッセイは大規模言語モデル(LLM)と準結晶の類似性を提案し、局所的な制約によって生成される周期的反復を伴わないグローバルコヒーレンスを示すシステムである。
準結晶の歴史に基づいて、生成言語における代替的なコヒーレンスモード、すなわち反復や象徴的意図を伴わない制約に基づく組織を強調している。
このエッセイは、既存のメソッドを拒絶するのではなく、意味論よりも構造に根ざした解釈の新たな軸を提案することによって、大きな言語モデルに関する現在の議論を再考することを目的としている。
論文 参考訳(メタデータ) (2025-04-16T11:27:47Z) - Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
本手法は,アノテート学習データなしで形態素規則に整合した文字レベルの構造を誘導することができる。
実験の結果,提案手法は完全形態素を効果的に保持し,BPEやWordPieceといった広く採用されている手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。