Fugu-MT 論文翻訳(概要): Characterizing the Expressivity of Transformer Language Models

論文の概要: Characterizing the Expressivity of Transformer Language Models

arxiv url: http://arxiv.org/abs/2505.23623v1
Date: Thu, 29 May 2025 16:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.989212
Title: Characterizing the Expressivity of Transformer Language Models
Title（参考訳）: 変圧器言語モデルの表現性の特徴付け
Authors: Jiaoda Li, Ryan Cotterell,
Abstract要約: 厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
参考スコア（独自算出の注目度）: 56.598551673153366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based language models (LMs) have achieved widespread empirical success, but their theoretical expressive power remains only partially understood. Prior work often relies on idealized models with assumptions -- such as arbitrary numerical precision and hard attention -- that diverge from real-world transformers. In this work, we provide an exact characterization of fixed-precision transformers with strict future masking and soft attention, an idealization that more closely mirrors practical implementations. We show that these models are precisely as expressive as a specific fragment of linear temporal logic that includes only a single temporal operator: the past operator. We further relate this logic to established classes in formal language theory, automata theory, and algebra, yielding a rich and unified theoretical framework for understanding transformer expressivity. Finally, we present empirical results that align closely with our theory: transformers trained on languages within their theoretical capacity generalize perfectly over lengths, while they consistently fail to generalize on languages beyond it.
Abstract（参考訳）: トランスフォーマーベースの言語モデル(LM)は広範な経験的成功を達成しているが、その理論的表現力は部分的には理解されていない。先行研究はしばしば、現実のトランスフォーマーから分岐する任意の数値精度やハードアテンションといった仮定を持つ理想化されたモデルに依存している。本研究では,厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特徴付けを行う。これらのモデルは,1つの時間演算子(過去の演算子)のみを含む線形時間論理の特定の断片と同程度に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付け、トランスフォーマー表現性を理解するためのリッチで統一された理論的枠組みを生み出す。最後に、我々の理論と密接に一致した経験的結果を示す: 理論能力内で訓練された言語で訓練されたトランスフォーマーは、完全に長さを超えて一般化する一方で、それら以外の言語を一貫して一般化することができない。

関連論文リスト

A Free Probabilistic Framework for Analyzing the Transformer-based Language Models [19.78896931593813]
本稿では,自由確率理論を用いたトランスフォーマーに基づく言語モデル解析のための形式的演算子理論フレームワークを提案する。この研究は、理論上は大きな言語モデルにおける構造力学に関する原則的視点を提供する。
論文参考訳（メタデータ） (2025-06-19T19:13:02Z)
Moving Beyond Next-Token Prediction: Transformers are Context-Sensitive Language Generators [0.40792653193642503]
トランスフォーマーを利用した大規模言語モデル(LLM)は、人間のような知能を実証している。本稿では,LLMを確率的左文脈依存言語(CSL)ジェネレータとして解釈するための新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-04-15T04:06:27Z)
The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文参考訳（メタデータ） (2025-02-24T03:01:03Z)
Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文参考訳（メタデータ） (2024-11-04T15:54:32Z)
A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文参考訳（メタデータ） (2024-10-03T01:52:01Z)
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文参考訳（メタデータ） (2024-07-05T14:29:44Z)
Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文参考訳（メタデータ） (2024-06-26T16:13:35Z)
Learning Syntax Without Planting Trees: Understanding Hierarchical Generalization in Transformers [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文参考訳（メタデータ） (2023-08-17T17:59:19Z)
On the Ability and Limitations of Transformers to Recognize Formal Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文参考訳（メタデータ） (2020-09-23T17:21:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。