論文の概要: A Random Matrix Analysis of In-context Memorization for Nonlinear Attention
- arxiv url: http://arxiv.org/abs/2506.18656v1
- Date: Mon, 23 Jun 2025 13:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.008946
- Title: A Random Matrix Analysis of In-context Memorization for Nonlinear Attention
- Title(参考訳): 非線形注意のためのコンテキスト内記憶のランダム行列解析
- Authors: Zhenyu Liao, Jiaqing Liu, TianQi Hou, Difan Zou, Zenan Ling,
- Abstract要約: 非線形注意は、ランダムな入力に対する線形リッジ回帰よりも高い記憶誤差をもたらすことを示す。
その結果,非線形注意の記憶性能を管理するために,非線形性と入力構造がどのように相互作用するかが明らかになった。
- 参考スコア(独自算出の注目度): 18.90197287760915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms have revolutionized machine learning (ML) by enabling efficient modeling of global dependencies across inputs. Their inherently parallelizable structures allow for efficient scaling with the exponentially increasing size of both pretrained data and model parameters. Yet, despite their central role as the computational backbone of modern large language models (LLMs), the theoretical understanding of Attentions, especially in the nonlinear setting, remains limited. In this paper, we provide a precise characterization of the \emph{in-context memorization error} of \emph{nonlinear Attention}, in the high-dimensional proportional regime where the number of input tokens $n$ and their embedding dimension $p$ are both large and comparable. Leveraging recent advances in the theory of large kernel random matrices, we show that nonlinear Attention typically incurs higher memorization error than linear ridge regression on random inputs. However, this gap vanishes, and can even be reversed, when the input exhibits statistical structure, particularly when the Attention weights align with the input signal direction. Our results reveal how nonlinearity and input structure interact with each other to govern the memorization performance of nonlinear Attention. The theoretical insights are supported by numerical experiments.
- Abstract(参考訳): インプット間のグローバル依存関係の効率的なモデリングを可能にすることによって、アテンションメカニズムは機械学習(ML)に革命をもたらした。
その本質的に並列化可能な構造は、事前訓練されたデータとモデルパラメータの両方のサイズが指数関数的に大きくなることにより、効率的なスケーリングを可能にする。
しかし、現代大言語モデル (LLM) の計算バックボーンとしての中心的な役割を担っているにもかかわらず、特に非線形環境での注意の理論的理解は限定的である。
本稿では,入力トークン数$n$と埋め込み次元$p$がともに大きい高次元比例状態において,emph{in-context memorization error} of \emph{nonlinear Attention}を正確に評価する。
大規模カーネルランダム行列の理論の最近の進歩を利用して、非線形アテンションは、ランダム入力に対する線形リッジ回帰よりも高い記憶誤差を生じさせることを示す。
しかし、このギャップは消滅し、特にアテンション重みが入力信号方向と一致した場合に、入力が統計的構造を示すときでさえ逆になる。
その結果,非線形注意の記憶性能を管理するために,非線形性と入力構造がどのように相互作用するかが明らかになった。
理論的洞察は数値実験によって支えられている。
関連論文リスト
- Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。
特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。
本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文 参考訳(メタデータ) (2025-06-16T06:54:08Z) - Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。
特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。
ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文 参考訳(メタデータ) (2025-06-05T08:44:51Z) - Nonlinear Multiple Response Regression and Learning of Latent Spaces [2.6113259186042876]
教師なし設定と教師なし設定の両方で潜在空間を学習できる統一手法を提案する。
ブラックボックス」として動作する他のニューラルネットワーク手法とは異なり、我々のアプローチはより良い解釈可能性を提供するだけでなく、計算の複雑さも減少させる。
論文 参考訳(メタデータ) (2025-03-27T15:28:06Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Metric-Entropy Limits on the Approximation of Nonlinear Dynamical Systems [4.069144210024563]
RNNは、リプシッツ特性を満たす非線形系を近似し、過去の入力を十分に早く忘れることができることを示す。
私たちが考えるシーケンス・ツー・シーケンス・マッピングの集合は近似理論で一般的に解析される関数類よりもはるかに大きいので、洗練された計量エントロピー的特徴付けが必要である。
論文 参考訳(メタデータ) (2024-07-01T12:57:03Z) - Intrinsic Voltage Offsets in Memcapacitive Bio-Membranes Enable High-Performance Physical Reservoir Computing [0.0]
貯留層コンピューティング(Reservoir computing)は、入力を高次元空間にマッピングすることで、時間データを処理するための脳にインスパイアされた機械学習フレームワークである。
本稿では、内部電圧オフセットを利用して、単調および非単調の入力状態相関を可能にする新しい膜キャパシタベースのPRCを提案する。
当社のアプローチと前例のないパフォーマンスは,高パフォーマンスフルテマリアPRCに向けた大きなマイルストーンです。
論文 参考訳(メタデータ) (2024-04-27T05:47:38Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Sparse Quantized Spectral Clustering [85.77233010209368]
このような非線形変換の下で行列の固有スペクトルがどのように変化するのかを、ランダム行列理論のツールを用いて正確に述べる。
急激なスペーシング/量子化の下でも,情報的固有構造にはほとんど変化は見られなかった。
論文 参考訳(メタデータ) (2020-10-03T15:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。