Fugu-MT 論文翻訳(概要): Why are Sensitive Functions Hard for Transformers?

論文の概要: Why are Sensitive Functions Hard for Transformers?

arxiv url: http://arxiv.org/abs/2402.09963v3
Date: Sun, 3 Mar 2024 08:42:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 00:08:57.188198
Title: Why are Sensitive Functions Hard for Transformers?
Title（参考訳）: なぜトランスフォーマーに敏感な機能が難しいのか?
Authors: Michael Hahn, Mark Rofin
Abstract要約: トランスアーキテクチャでは,ロスランドスケープは入力空間の感度によって制約されていることを示す。我々は,この理論が変圧器の学習能力とバイアスに関する幅広い経験的観察を統一することを示す。
参考スコア（独自算出の注目度）: 1.2561115505627547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Empirical studies have identified a range of learnability biases and limitations of transformers, such as a persistent difficulty in learning to compute simple formal languages such as PARITY, and a bias towards low-degree functions. However, theoretical understanding remains limited, with existing expressiveness theory either overpredicting or underpredicting realistic learning abilities. We prove that, under the transformer architecture, the loss landscape is constrained by the input-space sensitivity: Transformers whose output is sensitive to many parts of the input string inhabit isolated points in parameter space, leading to a low-sensitivity bias in generalization. We show theoretically and empirically that this theory unifies a broad array of empirical observations about the learning abilities and biases of transformers, such as their generalization bias towards low sensitivity and low degree, and difficulty in length generalization for PARITY. This shows that understanding transformers' inductive biases requires studying not just their in-principle expressivity, but also their loss landscape.
Abstract（参考訳）: 実証的研究は、PARITYのような単純な形式言語を計算することの難しさや、低次関数に対するバイアスなど、トランスフォーマーの学習可能性バイアスと制限の幅を特定している。しかし、理論的な理解は限られており、既存の表現力理論は現実的な学習能力を過大に予測または過小に予測している。入力文字列の多くの部分に敏感な出力を持つトランスは、パラメータ空間内の孤立した点に存在し、一般化において低感度のバイアスをもたらす。本研究では, この理論が, 低感度・低度への一般化バイアス, PARITYにおける長さ一般化の難しさなど, 変圧器の学習能力とバイアスに関する幅広い経験的観察を統一することを示す。これは、トランスフォーマーの帰納的バイアスを理解するには、原理的な表現性だけでなく、損失の風景も研究する必要があることを示している。

関連論文リスト

Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文参考訳（メタデータ） (2025-05-29T16:30:30Z)
Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文参考訳（メタデータ） (2025-05-06T05:41:46Z)
A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers [29.839710738657203]
最近の理論的結果から、変換器は計算深度が有界であるため、長い入力に対して逐次的推論問題を表現できないことが示されている。深さ$Theta(log n)$ の高度に均一な変換器でも、2つの重要な問題を表現できることを示す。これらの問題を定量的に表現するために、入力長で深さがどのように成長するかを定量的に予測する。
論文参考訳（メタデータ） (2025-03-05T23:26:25Z)
A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文参考訳（メタデータ） (2024-10-25T15:39:34Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文参考訳（メタデータ） (2024-10-03T01:52:01Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文参考訳（メタデータ） (2024-05-23T21:42:19Z)
Simplicity Bias of Transformers to Learn Low Sensitivity Functions [19.898451497341714]
トランスフォーマーは多くのタスクで最先端の精度と堅牢性を達成する。彼らが持っている誘導バイアスと、それらのバイアスが他のニューラルネットワークアーキテクチャとどのように異なるかを理解することは、まだ解明されていない。
論文参考訳（メタデータ） (2024-03-11T17:12:09Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
Simplicity Bias in Transformers and their Ability to Learn Sparse Boolean Functions [29.461559919821802]
最近の研究によると、トランスフォーマーは反復モデルと比較していくつかの形式言語をモデル化するのに苦労している。このことは、トランスフォーマーが実際になぜうまく機能するのか、また、リカレントモデルよりも良く一般化できるプロパティがあるかどうかという疑問を提起する。
論文参考訳（メタデータ） (2022-11-22T15:10:48Z)
XAI for Transformers: Better Explanations through Conservative Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文参考訳（メタデータ） (2022-02-15T10:47:11Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。