論文の概要: Inductive Bias and Spectral Properties of Single-Head Attention in High Dimensions
- arxiv url: http://arxiv.org/abs/2509.24914v1
- Date: Mon, 29 Sep 2025 15:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.087153
- Title: Inductive Bias and Spectral Properties of Single-Head Attention in High Dimensions
- Title(参考訳): 高次元における単頭注意の誘導バイアスとスペクトル特性
- Authors: Fabrizio Boncoraglio, Vittorio Erba, Emanuele Troiani, Florent Krzakala, Lenka Zdeborová,
- Abstract要約: 合成高次元シークエンスタスクを訓練した単一頭部拘束層における経験的リスクについて検討した。
トレーニングやテストエラーのシャープを導き、ウェイトとリカバリしきい値を特定し、学習したウェイトのスペクトル分布の制限を特徴付ける。
- 参考スコア(独自算出の注目度): 26.597272916325537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study empirical risk minimization in a single-head tied-attention layer trained on synthetic high-dimensional sequence tasks, given by the recently introduced attention-indexed model. Using tools from random matrix theory, spin-glass physics, and approximate message passing, we derive sharp asymptotics for training and test errors, locate interpolation and recovery thresholds, and characterize the limiting spectral distribution of the learned weights. Weight decay induces an implicit nuclear-norm regularization, favoring low-rank query and key matrices. Leveraging this, we compare the standard factorized training of query and key matrices with a direct parameterization in which their product is trained element-wise, revealing the inductive bias introduced by the factorized form. Remarkably, the predicted spectral distribution echoes empirical trends reported in large-scale transformers, offering a theoretical perspective consistent with these phenomena.
- Abstract(参考訳): 我々は,最近導入された注目インデックスモデルを用いて,合成高次元配列タスクを訓練した単一頭部拘束層における経験的リスク最小化について検討した。
ランダム行列理論、スピングラス物理学、および近似メッセージパッシングのツールを用いて、トレーニングとテストエラーのための鋭い漸近を導き、補間と回復しきい値を見つけ、学習した重みの制限スペクトル分布を特徴づける。
軽量崩壊は暗黙の核ノルム正規化を誘導し、低ランククエリと鍵行列を好む。
これを利用して、クエリとキー行列の標準的な因子化トレーニングと、それらの製品が要素的に訓練される直接的なパラメータ化を比較し、因子化形式によって導入された帰納的バイアスを明らかにする。
予測されたスペクトル分布は、大規模な変圧器で報告された経験的傾向を反映し、これらの現象と理論的な視点を提供する。
関連論文リスト
- Models of Heavy-Tailed Mechanistic Universality [62.107333654304014]
トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。
このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。
ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
論文 参考訳(メタデータ) (2025-06-04T00:55:01Z) - High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文 参考訳(メタデータ) (2024-06-05T12:03:27Z) - Entrywise error bounds for low-rank approximations of kernel matrices [55.524284152242096]
切り抜き固有分解を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。
重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果である。
我々は、合成および実世界のデータセットの集合に関する実証的研究により、我々の理論を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:26:25Z) - Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。
我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。
我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T15:12:14Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks [8.30897399932868]
鍵となる発見は、ニューラルネットワークの一般化性能が、その重み行列のスペクトルにおける重みの程度と関連していることを示している。
重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化により重み付きスペクトルを明示的に促進する。
重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-04-06T07:50:14Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。