論文の概要: Controlling changes to attention logits
- arxiv url: http://arxiv.org/abs/2511.21377v1
- Date: Wed, 26 Nov 2025 13:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.110131
- Title: Controlling changes to attention logits
- Title(参考訳): 注目ロジット変化の制御
- Authors: Ben Anson, Laurence Aitchison,
- Abstract要約: ニューラルネットワークの重み付けの安定性は、トランスフォーマーモデルのトレーニングにおいて重要である。
QK norm'として知られるクエリとキーに正規化を適用することで、実際には安定性の問題を修正するが、常に適用可能であるとは限らない。
安価な介入により、ネットワークのベース学習率が向上し、MLA設定における他の手法よりも優れ、QK基準と競合する性能が得られることを示す。
- 参考スコア(独自算出の注目度): 21.620742229590885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stability of neural network weights is critical when training transformer models. The query and key weights are particularly problematic, as they tend to grow large without any intervention. Applying normalization to queries and keys, known as `QK norm', fixes stability issues in practice, but is not always applicable. For example, QK norm is not compatible with Multi Latent Attention (MLA) because QK norm requires full materialization of queries and keys during inference, which is not done in MLA. In this paper we suggest that controlling the changes to logits is important for stability. We show that these changes are controllable by assigning parameter-dependent learning rates to the query and key weights. We find that our cheap intervention allows us to increase the base learning rate of the network, outperform other methods in the MLA setting, and achieve performance competitive with QK norm when using Multi-head Attention.
- Abstract(参考訳): ニューラルネットワークの重み付けの安定性は、トランスフォーマーモデルのトレーニングにおいて重要である。
クエリとキーウェイトは特に問題であり、介入なしに大きく成長する傾向がある。
QK norm'として知られるクエリとキーに正規化を適用することで、実際には安定性の問題を修正するが、常に適用可能であるとは限らない。
例えば、QKノルムはMLA(Multi Latent Attention)とは互換性がない。
本稿では,ロジット変化の制御が安定に重要であることを示唆する。
これらの変更は、パラメータ依存学習率をクエリとキーウェイトに割り当てることで制御可能であることを示す。
我々の安価な介入は、ネットワークのベースラーニング率を高め、MLA設定における他の手法を上回り、マルチヘッドアテンションを使用する場合のQK基準と競合する性能を達成することができる。
関連論文リスト
- GateRA: Token-Aware Modulation for Parameter-Efficient Fine-Tuning [51.79350934271497]
GateRAは、PEFT更新の強度を動的に調整するトークン対応変調を導入する統一フレームワークである。
適応ゲーティングを標準のPEFTブランチに組み込むことで、Gateraは選択的でトークンレベルの適応を可能にする。
複数のコモンセンス推論ベンチマークの実験により、GateRAはPEFT法よりも一貫して優れ、一致していることが示された。
論文 参考訳(メタデータ) (2025-11-15T17:55:47Z) - Causal Attention with Lookahead Keys [52.63961482746826]
標準的な因果的注意では、各トークンのクエリ、キー、値(QKV)は静的であり、先行するコンテキストのみをエンコードする。
本研究では,Lookahead kEys (CASTLE) を用いたCAuSal aTtentionを導入する。
論文 参考訳(メタデータ) (2025-09-09T00:15:23Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention [3.3457276841127315]
トランスフォーマーアーキテクチャは、自己認識機構を通じてディープラーニングに革命をもたらした。
Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。
グループ化の静的な性質から逸脱する2つの新しいアプローチに焦点を当てたGQAの拡張を導入する。
論文 参考訳(メタデータ) (2024-08-15T23:34:04Z) - On the Sample Complexity of Imitation Learning for Smoothed Model Predictive Control [27.609098229134]
システムの一般的なクラスに対して,スムーズな専門家を設計する方法を示す。
凸リプシッツ関数に付随する解析中心の最適性ギャップを証明した。
論文 参考訳(メタデータ) (2023-06-02T20:43:38Z) - Grounding Representation Similarity with Statistical Testing [8.296135566684065]
我々は,機能的行動に影響を与える変化や,そうでない変化に対する特異性に対して,尺度は敏感であるべきだと論じる。
我々は、分布シフトの正確性や堅牢性など、様々な機能的挙動を通じてこれを定量化する。
現在のメトリクスはさまざまな弱点を示しており、古典的なベースラインが驚くほどうまく機能していることに気付き、すべてのメトリクスが失敗しているように見える設定を強調しています。
論文 参考訳(メタデータ) (2021-08-03T17:58:16Z) - Accelerating Quadratic Optimization with Reinforcement Learning [39.64039435793601]
強化学習は、収束を加速するためにパラメータをチューニングするためのポリシーを学ぶことができるかを示す。
我々のポリシーであるRLQPは最先端のQPソルバを最大3倍に上回ります。
RLQPは、異なるアプリケーションから異なる次元と構造を持つ以前に見られなかった問題に驚くほどよく一般化する。
論文 参考訳(メタデータ) (2021-07-22T17:59:10Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。