論文の概要: Rational Communication Shapes Morphological Composition
- arxiv url: http://arxiv.org/abs/2605.03510v1
- Date: Tue, 05 May 2026 08:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.851355
- Title: Rational Communication Shapes Morphological Composition
- Title(参考訳): 合理的コミュニケーション形状と形態的構成
- Authors: Fengyuan Yang, Yongqian Peng, Yuxi Ma, Chenheng Xu, Yixin Zhu,
- Abstract要約: 本研究は,現在利用可能な形態素から生成される未証明の代替品に比較して,証明された構成品がランク付けされていることを示す。
これらの結果は語彙と効率のコミュニケーションのトレードオフを反映していることを示唆している。
- 参考スコア(独自算出の注目度): 9.648894214024615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human languages expand vocabularies by combining existing morphemes rather than inventing arbitrary forms. Communicative efficiency shapes lexical systems at multiple levels (Gibson et al., 2019), yet morphological composition -- combining morphemes through compounding or affixation -- has rarely been modeled as a historically situated speaker choice among competing morpheme sequences, leaving unanswered why a language settles on one morpheme combination over other plausible alternatives. We ask whether a trade-off between listener recoverability and speaker production cost can predict attested compositions over contemporaneously available alternatives. Here we show, within the Rational Speech Act (RSA) framework (Frank & Goodman, 2012; Goodman & Frank, 2016) using a time-indexed lexicon constructed from Corpus of Historical American English (COHA) and Corpus of Contemporary American English (COCA), that across 4323 naturally occurring English compounds and derivations spanning 1820--2019, attested compositions are systematically ranked above unattested alternatives generated from contemporaneously available morphemes. Models integrating semantic informativeness with production cost outperform semantic-only and cost-only baselines on Mean Reciprocal Rank (MRR) and top-k accuracy (Acc@k), with the advantage of the Pragmatic Speaker model ($S_1$) over the semantic-only baseline growing as the candidate set expands, where meaning alone leaves morphological choice underdetermined. These findings suggest that lexicalization reflects a communicative trade-off between expressiveness and efficiency, extending rational accounts of communication from utterance-level choice to the internal structure of words.
- Abstract(参考訳): 人間の言語は、任意の形式を発明するのではなく、既存の形態素を組み合わせることで語彙を広げる。
コミュニケーション効率は複数のレベルで語彙システムを形成する(Gibson et al , 2019)が、モルヒムを合成またはアフィクスによって組み合わせた形態学的構成は、競合するモルヒム配列の中で歴史的に位置する話者選択としてモデル化されることはめったにない。
聴取者の回復可能性と話者生産コストのトレードオフが、現代的に利用可能な代替品よりも証明された構成を予測できるかどうかを問う。
ここでは、Rational Speech Act (RSA) フレームワーク (Frank & Goodman, 2012; Goodman & Frank, 2016) において、現代アメリカ英語コーパス (COHA) と現代アメリカ英語コーパス (COCA) のコーパスを用いて、4323の自然発生の英語化合物と1820-2019年における導出について、現在利用可能な形態素から生成される未証明のオルタナティブよりも体系的にランク付けされていることを示す。
意味的情報性と生産コストのみのベースラインを平均相反ランク(MRR)とトップkの精度(Acc@k)で比較した場合、候補セットが拡大するにつれて成長する意味論的話者モデル(S_1$)よりも、意味論的話者モデル(S_1$)の利点がある。
これらの結果から,語彙化は表現性と効率のトレードオフを反映し,発話レベルの選択から単語の内部構造へのコミュニケーションの合理的な説明を延長することが示唆された。
関連論文リスト
- On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - Counting trees: A treebank-driven exploration of syntactic variation in speech and writing across languages [0.0]
我々は、構文構造をデレクシカルな依存(サブ)ツリーとして定義し、音声および記述されたユニバーサル依存ツリーバンクからそれらを抽出する。
各コーパスについて, 構文的在庫の大きさ, 多様性, 分布, その重なり合い, 音声の最も特徴的な構造を解析した。
その結果、どちらの言語でも、音声コーパスは、記述されたコーパスよりも、より多様で多様な構文構造を含まないことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-28T18:43:26Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - The distribution of syntactic dependency distances [0.13812010983144798]
我々は,構文的依存距離の実際の分布のキャラクタリゼーションに寄与する。
ブレークポイント後に確率減衰が変化することを許容する2つの指数的状態を持つ新しいモデルを提案する。
文の長さやアノテーションのスタイルとは無関係に,20言語すべてにおいて,2段階のモデルが最も可能性の高いモデルであることが判明した。
論文 参考訳(メタデータ) (2022-11-26T17:31:25Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。