論文の概要: Word reuse and combination support efficient communication of emerging concepts
- arxiv url: http://arxiv.org/abs/2411.05379v1
- Date: Fri, 08 Nov 2024 07:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:47.973947
- Title: Word reuse and combination support efficient communication of emerging concepts
- Title(参考訳): 単語の再利用と組み合わせによる新しい概念の効率的なコミュニケーション支援
- Authors: Aotao Xu, Charles Kemp, Lea Frermann, Yang Xu,
- Abstract要約: 最も一般的な語彙化戦略は、既存の単語の再利用と組み合わせである。
単語の再利用は単語の平均長を少ない精度で維持する傾向にあることを示す。
歴史的に出現する項目は,レキシコン構築の仮説的方法よりも高いコミュニケーション効率を実現する。
- 参考スコア(独自算出の注目度): 10.709583932527526
- License:
- Abstract: A key function of the lexicon is to express novel concepts as they emerge over time through a process known as lexicalization. The most common lexicalization strategies are the reuse and combination of existing words, but they have typically been studied separately in the areas of word meaning extension and word formation. Here we offer an information-theoretic account of how both strategies are constrained by a fundamental tradeoff between competing communicative pressures: word reuse tends to preserve the average length of word forms at the cost of less precision, while word combination tends to produce more informative words at the expense of greater word length. We test our proposal against a large dataset of reuse items and compounds that appeared in English, French and Finnish over the past century. We find that these historically emerging items achieve higher levels of communicative efficiency than hypothetical ways of constructing the lexicon, and both literal reuse items and compounds tend to be more efficient than their non-literal counterparts. These results suggest that reuse and combination are both consistent with a unified account of lexicalization grounded in the theory of efficient communication.
- Abstract(参考訳): 語彙の重要な機能は、語彙化と呼ばれるプロセスを通じて時間とともに現れる新しい概念を表現することである。
最も一般的な語彙化戦略は、既存の単語の再利用と組み合わせである。
ここでは、両戦略が競合する通信的圧力の基本的なトレードオフによってどのように制約されているかについて、情報理論による説明を行う: 単語の再利用は、より少ない精度で平均的な単語長を保持する傾向にあり、一方、単語の組み合わせは、より大きな単語長を犠牲にしてより情報的な単語を生成する傾向にある。
この提案は、過去1世紀の間に英語、フランス語、フィンランド語で現れた、再利用品や化合物の大規模なデータセットに対して検証された。
これらの歴史的に出現する項目は, 辞書構築の仮説的方法よりも高いコミュニケーション効率を達成し, 再利用項目や化合物の再利用効率は, 非文学的手法よりも高い傾向にある。
これらの結果は、再利用と組み合わせはどちらも、効率的な通信理論に基づく語彙化の統一的な説明と一致していることを示唆している。
関連論文リスト
- Why do objects have many names? A study on word informativeness in language use and lexical systems [6.181203772361659]
視覚空間に接する単語や語彙システムの情報度を簡易に測定し,英語と中国語のカラー命名データを解析する。
最適な語彙システムは複数の単語が同じ参照語に適用でき、異なる量の情報を伝達できるものであると結論付けている。
論文 参考訳(メタデータ) (2024-10-10T11:29:08Z) - Large Language Models for Stemming: Promises, Pitfalls and Failures [34.91311006478368]
本研究では,文脈理解の能力を活用して,大言語モデル(LLM)を用いて単語を綴じるという有望なアイデアについて検討する。
我々は,LLMを幹細胞として用いることと,Porter や Krovetz といった従来の語彙ステムマーを英語のテキストとして用いることと比較した。
論文 参考訳(メタデータ) (2024-02-19T01:11:44Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Dictionary-Assisted Supervised Contrastive Learning [0.0]
本稿では,辞書支援型教師付きコントラスト学習(DASCL)の目的について紹介する。
共通の固定トークンは、関心の概念に関連する辞書(ies)に現れるコーパス内の任意の単語を置き換える。
DASCLとクロスエントロピーは、数ショットの学習設定と社会科学応用における分類性能指標を改善する。
論文 参考訳(メタデータ) (2022-10-27T04:57:43Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文 参考訳(メタデータ) (2021-02-03T18:19:16Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。