論文の概要: A Sharper Picture of Generalization in Transformers
- arxiv url: http://arxiv.org/abs/2605.20988v2
- Date: Tue, 26 May 2026 07:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.871177
- Title: A Sharper Picture of Generalization in Transformers
- Title(参考訳): 変圧器の一般化のシャーパ画像
- Authors: Paul Lintilhac, Sair Shaikh,
- Abstract要約: 低次成分に集束したスパーススペクトルは, 優れた一般化特性を有する低シャープ性構成を可能にすることを示す。
これは、なぜチェーン・オブ・シントが高次対象関数の一般化を改善するのかを公式に説明するために用いられる。
- 参考スコア(独自算出の注目度): 1.0026496861838448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study transformers' generalization behavior on boolean domains from the perspective of the Fourier spectra of their target functions. In contrast to prior work (Edelman et al., 2022; Trauger & Tosh, 2024), which derived generalization bounds from Rademacher complexity, we investigate the feasibility of obtaining generalization bounds via PAC-Bayes theory. We show that sparse spectra concentrated on low-degree components enable low-sharpness constructions with good generalization properties. Our idea is to show the existence of flat minima implementing any boolean function of sparsity no greater than the context length, and then apply a PAC-Bayes bound to an idealized low-sharpness learner, resulting in a non-vacuous generalization bound. We use this to give a formal account of why chain-of-thought improves generalization for high-degree target functions, and show that the complexity parameters in our bound can be efficiently estimated via property testing. We evaluate predictions empirically and conduct a mechanistic interpretability study to support the realism of our theoretical construction in real transformers.
- Abstract(参考訳): 目的関数のフーリエスペクトルの観点からブール領域上の変圧器の一般化挙動を考察する。
以前の研究(Edelman et al , 2022; Trauger & Tosh, 2024)とは対照的に、ラデマッハ複雑性から一般化境界を導出したものである。
低次成分に集束したスパーススペクトルは, 優れた一般化特性を有する低シャープ性構築を可能にすることを示す。
我々の考えは、文脈長以上の空間空間のブール関数を実装した平らなミニマの存在を示し、次に理想化された低シャープ学習者にPAC-Bayesを有界に適用し、非空一般化境界を与える。
これを用いて、なぜチェーン・オブ・シントが高次対象関数の一般化を改善するのかを公式に説明し、我々の境界における複雑性パラメータがプロパティ・テストによって効率的に推定可能であることを示す。
実変圧器における理論構成のリアリズムを実証的に評価し,機械論的解釈可能性の研究を行う。
関連論文リスト
- TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors [53.891337639229285]
高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
論文 参考訳(メタデータ) (2026-01-25T19:21:25Z) - Quantitative Bounds for Length Generalization in Transformers [58.175107357008876]
変圧器における長さ一般化(LG)問題について検討する。
LGは、長い列上の変圧器の内部挙動が短い列上の振舞いによって「シミュレート」できるときに発生する。
論文 参考訳(メタデータ) (2025-10-30T21:31:36Z) - Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities [58.742178800799614]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。
予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。
本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文 参考訳(メタデータ) (2025-02-24T03:01:03Z) - A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。
我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文 参考訳(メタデータ) (2024-10-03T01:52:01Z) - From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers [7.011373967209572]
対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。
ABC を用いて,変圧器モデルにより,ある種の算術課題において,前例のないほぼ完全長の一般化を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-18T14:10:47Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z) - Generalization by design: Shortcuts to Generalization in Deep Learning [7.751691910877239]
よい一般化は、新しい幾何正則化器につながる層上の有界スペクトル積によってもたらされることを示す。
理論によって裏付けられ、我々は「設計による一般化」が現実的に可能であり、優れた一般化がネットワークの構造にコード化されることをさらに実証する。
論文 参考訳(メタデータ) (2021-07-05T20:01:23Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。