論文の概要: Characterizing the Expressivity of Transformer Language Models
- arxiv url: http://arxiv.org/abs/2505.23623v1
- Date: Thu, 29 May 2025 16:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.989212
- Title: Characterizing the Expressivity of Transformer Language Models
- Title(参考訳): 変圧器言語モデルの表現性の特徴付け
- Authors: Jiaoda Li, Ryan Cotterell,
- Abstract要約: 厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。
これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。
さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
- 参考スコア(独自算出の注目度): 56.598551673153366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) have achieved widespread empirical success, but their theoretical expressive power remains only partially understood. Prior work often relies on idealized models with assumptions -- such as arbitrary numerical precision and hard attention -- that diverge from real-world transformers. In this work, we provide an exact characterization of fixed-precision transformers with strict future masking and soft attention, an idealization that more closely mirrors practical implementations. We show that these models are precisely as expressive as a specific fragment of linear temporal logic that includes only a single temporal operator: the past operator. We further relate this logic to established classes in formal language theory, automata theory, and algebra, yielding a rich and unified theoretical framework for understanding transformer expressivity. Finally, we present empirical results that align closely with our theory: transformers trained on languages within their theoretical capacity generalize perfectly over lengths, while they consistently fail to generalize on languages beyond it.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(LM)は広範な経験的成功を達成しているが、その理論的表現力は部分的には理解されていない。
先行研究はしばしば、現実のトランスフォーマーから分岐する任意の数値精度やハードアテンションといった仮定を持つ理想化されたモデルに依存している。
本研究では,厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特徴付けを行う。
これらのモデルは,1つの時間演算子(過去の演算子)のみを含む線形時間論理の特定の断片と同程度に表現可能であることを示す。
さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付け、トランスフォーマー表現性を理解するためのリッチで統一された理論的枠組みを生み出す。
最後に、我々の理論と密接に一致した経験的結果を示す: 理論能力内で訓練された言語で訓練されたトランスフォーマーは、完全に長さを超えて一般化する一方で、それら以外の言語を一貫して一般化することができない。
関連論文リスト
- Moving Beyond Next-Token Prediction: Transformers are Context-Sensitive Language Generators [0.40792653193642503]
トランスフォーマーを利用した大規模言語モデル(LLM)は、人間のような知能を実証している。
本稿では,LLMを確率的左文脈依存言語(CSL)ジェネレータとして解釈するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-15T04:06:27Z) - A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。
我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文 参考訳(メタデータ) (2024-10-03T01:52:01Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Learning Syntax Without Planting Trees: Understanding Hierarchical Generalization in Transformers [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - On the Ability and Limitations of Transformers to Recognize Formal
Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。
トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文 参考訳(メタデータ) (2020-09-23T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。