論文の概要: Coupled Query-Key Dynamics for Attention
- arxiv url: http://arxiv.org/abs/2604.01683v1
- Date: Thu, 02 Apr 2026 06:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.568942
- Title: Coupled Query-Key Dynamics for Attention
- Title(参考訳): 注意のための結合クエリキーダイナミクス
- Authors: Barak Gahtan, Alex M. Bronstein,
- Abstract要約: スコア付けする前に、共有された学習力学を通して進化するクエリとキーを瞬時に示す。
60MパラメータのWikiText-103では、結合力学は22.55--22.62パープレキシティ(英語版)と24.22のパープレキシティ(英語版)を達成する。
- 参考スコア(独自算出の注目度): 6.775853253396773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard scaled dot-product attention computes scores from static, independent projections of the input. We show that evolving queries and keys \emph{jointly} through shared learned dynamics before scoring - which we call \textbf{coupled QK dynamics} - improves language modeling perplexity and training stability. On WikiText-103 at 60M parameters, coupled dynamics achieves 22.55--22.62 perplexity vs.\ 24.22 for standard attention ($-$6.6--6.9\%), with only 0.11\% additional parameters (shared across both instantiations). A structural ablation isolates coupling as the active ingredient: a symplectic (Hamiltonian) and a non-symplectic (Euler) integrator perform identically when both couple Q and K, while an uncoupled MLP baseline of matched capacity reaches only 23.81 with 8$\times$ higher seed variance. The integration step count (1--7) is similarly irrelevant - a single coupled step suffices. A compute-matched comparison reveals that coupling is a \emph{sample-efficiency} mechanism: standard attention trained for 2.4$\times$ longer (matching wall-clock) reaches the same perplexity, but requires 2.4$\times$ more tokens. The advantage scales to 150M ($-$6.7\%) but narrows at 350M ($-$1.0\%), where Differential Attention (18.93) overtakes coupled dynamics (19.35). The benefit is corpus-dependent: coupling helps on domain-coherent text (WikiText-103 $-$6.6\%, PubMed $-$4.5\%) but degrades on heterogeneous web text ($+$10.3\%) and shows no benefit on GLUE. We characterize when coupling helps and when it does not, providing practical guidelines.
- Abstract(参考訳): 標準スケールのドット積アテンションは、入力の静的で独立した投影からスコアを計算する。
評価の前に学習力学を共有化してクエリとキーを進化させることにより,言語モデリングの難易度と学習安定性が向上することを示す。
60MパラメータでのWikiText-103では、結合力学は22.55--22.62パープレキシティ対0。
24.22 for standard attention (-$6.6--6.9\%) with only 0.11\% addition parameters (shared across both instantiations)。
構造アブレーションは結合を有効成分として分離する:シンプレクティック(ハミルトン)と非シンプレクティック(オイラー)インテグレータは、ペアQとKの両方で同一に作用する一方、マッチ容量の未結合MLPベースラインは、23.81と8$\times$高い種子分散である。
統合ステップカウント(1~7)も同様に無関係です。
2.4$\times$long(マッチングウォールクロック)でトレーニングされた標準的な注意力は同じ難易度に達するが、2.4$\times$ moreトークンが必要である。
利点は150万ポンド (-$6.7\%) までスケールするが、350万ポンド (-$1.0\%) で狭くなる(差分注意 (18.93) は結合力学 (19.35) を上回っている)。
結合は、ドメインコヒーレントテキスト(WikiText-103 $-$6.6\%, PubMed $-$4.5\%)で役立つが、異種Webテキスト(+$10.3\%)では劣化し、GLUEではメリットがない。
私たちは結合が助けになる時とそうでない時を特徴付け、実践的なガイドラインを提供します。
関連論文リスト
- Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents [0.25891009512378166]
思考の連鎖 (CoT) 推論は, エージェント性能を向上させることが広く想定されている。
機能呼び出しエージェントに対するCOT予算効果の系統的研究を行った。
我々の中心的な発見は、Qwen2.5-1.5B-Instruct: brief reasoning (32 tokens) における顕著な非単調パターンである。
論文 参考訳(メタデータ) (2026-04-02T15:25:13Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection [15.230462656535034]
標準変換器の注意は、クエリ、キー、および値(d_q = d_k = d_v = dmodel$)に同じ次元を使用する。
我々の洞察では、これらの成分は基本的に異なる役割を担っており、この対称性は不要である。
我々は、選択は本質的に値移動よりも低次元の操作であり、$Nの関連パターンを区別するためには$BigO(log N)次元しか必要としないと主張している。
論文 参考訳(メタデータ) (2026-02-16T23:45:39Z) - Decoherence, Perturbations and Symmetry in Lindblad Dynamics [0.0]
我々は、摂動的ダイソン型処理と離散対称性の制約を、シュルディンガー方程式とフォン・ノイマン方程式から嫌悪的なリンドブラッドフレームワークへと拡張する。
この研究は、一般的な力学的な考察から特定の量子力学のツールまで、現実主義と双対時間境界条件に基づく奇対称定式化をさらに発展させる。
論文 参考訳(メタデータ) (2026-02-14T23:23:29Z) - Balancing Centralized Learning and Distributed Self-Organization: A Hybrid Model for Embodied Morphogenesis [0.0]
本研究では,学習可能な脳様のコントローラを細胞様のグレースコット基質に結合して,最小限の努力でステアパターン形成を行う方法について検討する。
コンパクトな畳み込みポリシは、微分可能なPyTorch反応拡散シミュレータに埋め込まれる。
論文 参考訳(メタデータ) (2025-11-13T09:05:27Z) - Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining [36.70261826975876]
ソフトマックスアテンションの効率的な近似であるmultipole Semantic Attention (MuSe)を提案する。
本手法は,クエリとキーを個別にクラスタリングすることで,コンテクスト長の変換器の2次計算複雑性に対処する。
因果的注意を喚起するために、正確な局所計算と効率的な長距離近似を組み合わせた階層的ブロック分解を開発する。
論文 参考訳(メタデータ) (2025-09-12T16:58:17Z) - Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。