論文の概要: Geometric Signatures of Compositionality Across a Language Model's Lifetime
- arxiv url: http://arxiv.org/abs/2410.01444v2
- Date: Mon, 7 Oct 2024 21:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:44:25.219720
- Title: Geometric Signatures of Compositionality Across a Language Model's Lifetime
- Title(参考訳): 言語モデルの生涯における構成性の幾何学的シグナチャ
- Authors: Jin Hwa Lee, Thomas Jiralerspong, Lei Yu, Yoshua Bengio, Emily Cheng,
- Abstract要約: 構成性は表現の本質的な次元に反映されていることを示す。
また, 構成性と幾何学的複雑性の関係は, 学習した言語的特徴によってもたらされることを示した。
- 参考スコア(独自算出の注目度): 47.25475802128033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositionality, the notion that the meaning of an expression is constructed from the meaning of its parts and syntactic rules, permits the infinite productivity of human language. For the first time, artificial language models (LMs) are able to match human performance in a number of compositional generalization tasks. However, much remains to be understood about the representational mechanisms underlying these abilities. We take a high-level geometric approach to this problem by relating the degree of compositionality in a dataset to the intrinsic dimensionality of its representations under an LM, a measure of feature complexity. We find not only that the degree of dataset compositionality is reflected in representations' intrinsic dimensionality, but that the relationship between compositionality and geometric complexity arises due to learned linguistic features over training. Finally, our analyses reveal a striking contrast between linear and nonlinear dimensionality, showing that they respectively encode formal and semantic aspects of linguistic composition.
- Abstract(参考訳): 構成性、つまり表現の意味は、その部分の意味と統語規則から成り立っているという概念は、人間の言語の無限の生産性を許容する。
初めて、人工言語モデル(LM)は、多くの構成的一般化タスクにおいて、人間のパフォーマンスにマッチする。
しかしながら、これらの能力の根底にある表現機構について、多くのことが理解されている。
本稿では,データセットにおける構成性の度合いと,その表現の内在次元を,特徴複雑性の尺度であるLMの下で関連付けることにより,この問題に対して高レベルの幾何学的アプローチをとる。
データセットの構成性の度合いが表現の本質的な次元に反映されるだけでなく、構成性と幾何学的複雑性の関係が学習した言語的特徴によって生じることが分かる。
最後に, 線形次元と非線形次元の顕著な対比から, 言語構成の形式的側面と意味的側面をそれぞれエンコードしていることを示す。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Evaluating Morphological Compositional Generalization in Large Language Models [17.507983593566223]
大規模言語モデル (LLM) の形態的一般化能力について, 構成性のレンズによる検討を行った。
我々はトルコ語やフィンランド語などの凝集言語に焦点を当てている。
解析の結果,LLMは特に新規語根に適用する場合,形態的構成一般化に苦慮していることが明らかとなった。
モデルは偶然よりも個々の形態的組み合わせを識別できるが、その性能は体系性に欠けており、人間に比べてかなりの精度の差が生じる。
論文 参考訳(メタデータ) (2024-10-16T15:17:20Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - Recursive Neural Networks with Bottlenecks Diagnose
(Non-)Compositionality [65.60002535580298]
データの構成性の定量化は難しい課題であり、主に短い発話のために研究されている。
モデルにおけるデータの表現とボトルネックの有無を比較することで,構成性の測定値が得られることを示す。
本手法は、合成データを用いた算術式の評価と、自然言語データを用いた感情分類に適用する。
論文 参考訳(メタデータ) (2023-01-31T15:46:39Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - The Combinatorics of \textit{Salva Veritate} Principles [0.0]
文法的構成性の概念は、自然言語と人工言語の両方の多くの理論に現れる。
構成性の事例の多くは、言語の表現力に関する非自明な主張を伴っていなければならない。
論文 参考訳(メタデータ) (2022-01-13T19:00:56Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Compositionality and Generalization in Emergent Languages [42.68870559695238]
深層マルチエージェントシミュレーションで現れる言語が、新しいプリミティブの組み合わせに類似する能力を持っているかどうかを考察する。
創発的言語の合成度合いと一般化能力の相関関係は見つからない。
構成的な言語が多ければ多いほど、新しい学習者が習得しやすくなります。
論文 参考訳(メタデータ) (2020-04-20T08:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。