論文の概要: On the Invariants of Softmax Attention
- arxiv url: http://arxiv.org/abs/2605.02907v1
- Date: Mon, 06 Apr 2026 03:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.50545
- Title: On the Invariants of Softmax Attention
- Title(参考訳): ソフトマックス注意の不変量について
- Authors: Wonsuk Lee,
- Abstract要約: 我々は,エフェネギー場,行中心のアテンションロジットを定義し,モデル,アーキテクチャ,入力にまたがる不変性を示すことを示す。
不変量の2つのクラスが出現する。
それらは、ローあたりのゼロサム制約、ヘッド次元によって決定されるランク、およびそれらから続くスペクトルシグネチャを含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax attention maps every query--key interaction into a probability distribution, but the underlying structure remains largely unexplored. We define the \emph{energy field}, the row-centered attention logit, and show that it exhibits invariant properties across models, architectures, and inputs. Two classes of invariants emerge. \emph{Mechanism-level} invariants follow from the algebraic structure of softmax attention. They include a per-row zero-sum constraint, a rank bound determined by the head dimension, and spectral signatures that follow from them. \emph{Model-level} regularities are not required by the mechanism, yet hold in every autoregressive language model we test, spanning several architecture families. The energy field distributes its variance over key positions without concentrating at a few. This delocalization traces to a property of the key matrix we call \emph{key incoherence}. These invariants have practical consequences. The rank bound confines the energy field to a low-dimensional subspace. Key incoherence yields a per-head training monitor. All results are verified at multiple context lengths and input texts.
- Abstract(参考訳): ソフトマックスの注意は全てのクエリーキー相互作用を確率分布にマッピングするが、基礎構造はほとんど探索されていない。
行中心のアテンションロジットである 'emph{energy field} を定義し、モデル、アーキテクチャ、入力にまたがる不変性を示すことを示す。
不変量の2つのクラスが出現する。
\emph{Mechanism-level} 不変量は、ソフトマックスの注意の代数構造から導かれる。
それらは、ローあたりのゼロサム制約、ヘッド次元によって決定されるランク、およびそれらから続くスペクトルシグネチャを含む。
\emph{Model-level} 正規性はメカニズムによって必要とされないが、テストするすべての自動回帰言語モデルに保持され、いくつかのアーキテクチャファミリにまたがる。
エネルギー場は、数点に集中することなく、その分散を鍵位置上で分配する。
この非局在化は、我々が \emph{key incoherence} と呼ぶ鍵行列の性質に遡る。
これらの不変性は実践的な結果をもたらす。
ランク境界はエネルギー場を低次元部分空間に限定する。
キー・インコヒーレンスにより、ヘッド当たりのトレーニングモニターが生成される。
結果は複数のコンテキスト長と入力テキストで検証される。
関連論文リスト
- Spectral Edge Dynamics Reveal Functional Modes of Learning [0.0]
グラッキング中のトレーニングダイナミクスは、少数の主要な更新方向 – スペクトルエッジ – に沿って集中する。
標準的な機械的解釈可能性ツールは、これらの方向を捉えないことを示す。
モジュラー追加では、すべての先頭方向が1つのフーリエモードに崩壊する。
乗算の場合、同じ崩壊は離散logベースでのみ現れ、濃度が5.9倍向上する。
論文 参考訳(メタデータ) (2026-04-06T22:29:00Z) - Deterministic Zeroth-Order Mirror Descent via Vector Fields with A Posteriori Certification [45.85698554568285]
我々は、勾配を一般的なベクトル場に置き換えることで、決定論的ゼロ階ミラー降下フレームワークを開発する。
我々の分析は、最終段階の不等式評価のための評価テンプレートを提供する。
これらの結果は、ブレグマンのアイデンティティ、決定論的証明、およびゼロ階ミラー降下におけるロバストな円錐幾何学を隠蔽した幾何学的リンクを明らかにする。
論文 参考訳(メタデータ) (2026-01-31T10:05:05Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Nexus: Higher-Order Attention Mechanisms in Transformers [82.07756094886552]
トランスフォーマーは、依存関係をキャプチャするための自己アテンションに依存して、さまざまなドメインで大きな成功を収めています。
本稿では,再帰フレームワークによる表現力向上を目的とした新しいアーキテクチャであるNexusを提案する。
我々は,本手法が標準注意の線形ボトルネックを突破することを示す理論的解析を行った。
論文 参考訳(メタデータ) (2025-12-03T02:25:38Z) - Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking [44.614763110719274]
我々は、グルーキング現象、すなわち遅延一般化について研究する。
本稿では,2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える新しいフレームワークを提案する。
私たちの研究は、体重減少、学習率、グルーキングにおけるサンプルサイズといったハイパースの役割に光を当てています。
論文 参考訳(メタデータ) (2025-09-25T20:08:09Z) - Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures [0.0]
我々は,自己意識の線形成分に着目したカテゴリー理論フレームワークを開発した。
クエリ、キー、値マップは自然に2-圏 $mathbfPara(Vect)$ のパラメトリック 1-同型を定義することを示す。
複数の自己アテンション層を積み重ねると、このエンドファウンタ上の自由モナドが構築される。
論文 参考訳(メタデータ) (2025-01-06T11:14:18Z) - On the Stability of Expressive Positional Encodings for Graphs [46.967035678550594]
ラプラシア固有ベクトルを位置符号化として使用することは、2つの根本的な課題に直面している。
SPE(Stable and Expressive Positional Generalizations)を紹介する。
SPEは(1)確率的に安定であり、(2)基底不変関数に対して普遍的に表現できる最初のアーキテクチャである。
論文 参考訳(メタデータ) (2023-10-04T04:48:55Z) - Max-Margin Works while Large Margin Fails: Generalization without
Uniform Convergence [55.26547500184405]
既存のツールでは、テストの損失がトレーニングの損失に近いことを保証し、候補モデルのクラスを均一に制御するエム統一コンバージェンス(UC)に依存している。
Nagarajan と Kolter は、ある単純な線形および神経ネットワークの設定において、任意の一様収束境界は空であり、UC が失敗する環境での一般化の証明方法に関する疑問を解き放つことを示している。
我々は、ある信号対雑音のしきい値を超えると、これらの2つの設定でほぼテスト損失が得られないことを示す新しいタイプのマージン境界を証明した。
論文 参考訳(メタデータ) (2022-06-16T02:46:26Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Self-training Avoids Using Spurious Features Under Domain Shift [54.794607791641745]
教師なし領域適応においては、条件付きエントロピー最小化と擬似ラベル処理は、既存の理論で解析されたものよりもドメインシフトがはるかに大きい場合であっても行われる。
ドメインシフトが大きくなる可能性のある特定の設定を特定・分析するが、特定のスパイラルな特徴はソースドメインのラベルと相関するが、ターゲットの独立なラベルである。
論文 参考訳(メタデータ) (2020-06-17T17:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。