論文の概要: Localmax dynamics for attention in transformers and its asymptotic behavior
- arxiv url: http://arxiv.org/abs/2509.15958v1
- Date: Fri, 19 Sep 2025 13:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.175027
- Title: Localmax dynamics for attention in transformers and its asymptotic behavior
- Title(参考訳): 変圧器の注意のための局所マックスダイナミクスとその漸近挙動
- Authors: Henri Cimetière, Maria Teresa Chiri, Bahman Gharesifard,
- Abstract要約: 新たに離散時間アテンションモデルであるローカルマックスダイナミクスを導入し、与えられたトークンに対する影響を最大化するトークンだけが正の重みを持つことを示す。
局所マックス力学は有限時間収束を示さないことを示し、非ゼロ時間・時間変化アライメント感度パラメータを消失させる結果を与える。
また、古典的な意見力学からリアプノフに基づく手法を適用し、局所マックス相互作用の非対称な設定におけるそれらの制限を強調した。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a new discrete-time attention model, termed the localmax dynamics, which interpolates between the classic softmax dynamics and the hardmax dynamics, where only the tokens that maximize the influence toward a given token have a positive weight. As in hardmax, uniform weights are determined by a parameter controlling neighbor influence, but the key extension lies in relaxing neighborhood interactions through an alignment-sensitivity parameter, which allows controlled deviations from pure hardmax behavior. As we prove, while the convex hull of the token states still converges to a convex polytope, its structure can no longer be fully described by a maximal alignment set, prompting the introduction of quiescent sets to capture the invariant behavior of tokens near vertices. We show that these sets play a key role in understanding the asymptotic behavior of the system, even under time-varying alignment sensitivity parameters. We further show that localmax dynamics does not exhibit finite-time convergence and provide results for vanishing, nonzero, time-varying alignment-sensitivity parameters, recovering the limiting behavior of hardmax as a by-product. Finally, we adapt Lyapunov-based methods from classical opinion dynamics, highlighting their limitations in the asymmetric setting of localmax interactions and outlining directions for future research.
- Abstract(参考訳): 従来のソフトマックス力学とハードマックス力学を補間するローカルマックス力学と呼ばれる新しい離散時間アテンションモデルを導入する。
ハードマックスと同様に、均一な重みは隣り合う影響を制御するパラメータによって決定されるが、鍵となる拡張はアライメント感度パラメータを通して隣り合う相互作用を緩和することにある。
証明したように、トークン状態の凸殻は依然として凸ポリトープに収束するが、その構造は極大アライメント集合によって完全に説明できず、頂点付近のトークンの不変な振る舞いを捉えるためにキネッセンス集合が導入された。
これらの集合は、時間変化のアライメント感度パラメータの下でも、システムの漸近的な振る舞いを理解する上で重要な役割を果たすことを示す。
さらに、局所マックス力学は有限時間収束を示さないことを示し、非ゼロ、時間変化のアライメント感度パラメータを消失させ、副産物としてのハードマックスの制限挙動を回復させる結果を与える。
最後に、古典的意見力学からリアプノフに基づく手法を適用し、局所マックス相互作用の非対称な設定におけるそれらの制限と将来の研究の方向性を明らかにする。
関連論文リスト
- Manifold Trajectories in Next-Token Prediction: From Replicator Dynamics to Softmax Equilibrium [0.0]
大規模言語モデルでの復号化はしばしばスコアリングトークンとソフトマックスによる正規化と表現される。
我々は、このステップの自己完結した幻覚を、確率単純性上の制約付き変分原理として与える。
固定された文脈と温度に対して、次トーケン分布は単純体内部の滑らかな軌道を辿り、ソフトマックス平衡に収束することを示す。
論文 参考訳(メタデータ) (2025-08-28T20:00:22Z) - Long-Context Generalization with Sparse Attention [21.312711979288004]
トランスフォーマーベースのアーキテクチャは、伝統的に注意重みを計算するためにソフトマックスを使用している。
シーケンス長が増加するにつれて、非情報的トークンは注意確率の質量を蓄積し、分散と表現的崩壊をもたらす。
本稿では,$alpha$-entmax を用いて注意機構を疎結合にすることで,これらの問題を回避できることを示す。
論文 参考訳(メタデータ) (2025-06-19T22:43:25Z) - Self-Adjust Softmax [62.267367768385434]
ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。
この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
論文 参考訳(メタデータ) (2025-02-25T15:07:40Z) - Towards Spectral Convergence of Locally Linear Embedding on Manifolds with Boundary [0.0]
局所線形埋め込み(Locally Linear Embedding)と呼ばれる教師なし学習アルゴリズムの振る舞いを制御した微分演算子の固有値と固有関数について検討する。
固有関数上の自然な正則性条件は一貫した境界条件を課し、フロベニウス法を用いて点的挙動を推定する。
論文 参考訳(メタデータ) (2025-01-16T14:45:53Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - Nesterov Meets Optimism: Rate-Optimal Separable Minimax Optimization [108.35402316802765]
本稿では,新しい一階最適化アルゴリズムであるAcceleratedGradient-OptimisticGradient (AG-OG) Ascentを提案する。
我々はAG-OGが様々な設定に対して最適収束率(定数まで)を達成することを示す。
アルゴリズムを拡張して設定を拡張し、bi-SC-SCとbi-C-SCの両方で最適な収束率を達成する。
論文 参考訳(メタデータ) (2022-10-31T17:59:29Z) - Stabilizing Q Learning Via Soft Mellowmax Operator [12.208344427928466]
Mellowmaxは学習と計画における収束行動を可能にする、微分可能で非拡張型ソフトマックス演算子である。
SM2演算子を多エージェント強化学習シナリオに適用することにより,安定な値関数近似と技術性能の状態を実現できることを示す。
論文 参考訳(メタデータ) (2020-12-17T09:11:13Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。
近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。
これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文 参考訳(メタデータ) (2020-10-22T05:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。