論文の概要: Value-State Gated Attention for Mitigating Extreme-Token Phenomena in Transformers
- arxiv url: http://arxiv.org/abs/2510.09017v1
- Date: Fri, 10 Oct 2025 05:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.189432
- Title: Value-State Gated Attention for Mitigating Extreme-Token Phenomena in Transformers
- Title(参考訳): 変圧器における極端トーケン現象の緩和のための値状態ゲーテッド注意法
- Authors: Rui Bu, Haofeng Zhong, Wenzheng Chen, Yangyan Li,
- Abstract要約: トランスフォーマーアーキテクチャに基づく大規模モデルは、注意シンクやバリューステートドレインのような極端に急激な現象に影響を受けやすい。
本稿では,'no-op'アテンションを効率的に行うための,シンプルで専用かつ安定したアーキテクチャ機構であるバリュー・ステート・ゲーテッド・アテンション(VGA)を提案する。
実験により,VGAは注目シンクの形成を著しく軽減し,値-状態ノルムを安定化させ,性能の向上,堅牢な量子化フィディリティ,モデル解釈可能性の向上を実現した。
- 参考スコア(独自算出の注目度): 9.323230501418509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large models based on the Transformer architecture are susceptible to extreme-token phenomena, such as attention sinks and value-state drains. These issues, which degrade model performance, quantization fidelity, and interpretability, arise from a problematic mutual reinforcement mechanism where the model learns an inefficient 'no-op' behavior by focusing attention on tokens with near-zero value states. In this paper, we propose Value-State Gated Attention (VGA), a simple, dedicated, and stable architectural mechanism for performing 'no-op' attention efficiently by directly breaking this cycle. VGA introduces a learnable, data-dependent gate, computed directly from the value vectors (V), to modulate the output. Through a theoretical analysis of the underlying gradients, we show that gating the value-state with a function of itself is more effective at decoupling value and attention score updates than prior methods that gate on input embeddings. This creates a direct regulatory pathway that allows the model to suppress a token's contribution based on its emergent value representation. Our experiments demonstrate that VGA significantly mitigates the formation of attention sinks and stabilizes value-state norms, leading to improved performance, robust quantization fidelity, and enhanced model interpretability.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模モデルは、注意シンクやバリューステートドレインのような極端に急激な現象に影響を受けやすい。
これらの問題は、モデルの性能、量子化の忠実度、解釈可能性を低下させるものであり、モデルがほぼゼロの値状態のトークンに注意を払って非効率な「ノーオップ」な振る舞いを学習する、問題のある相互強化メカニズムから生じる。
本稿では,このサイクルを直接破って'no-op'アテンションを効率的に行うための,シンプルで専用かつ安定したアーキテクチャ機構であるバリュー・ステート・ゲーテッド・アテンション(VGA)を提案する。
VGAは学習可能なデータ依存ゲートを導入し、値ベクトル(V)から直接計算して出力を変調する。
基礎となる勾配の理論的解析により,入力埋め込みをゲートする従来の方法よりも,値と注目スコアの更新を分離する上で,値状態のゲーティングが有効であることを示す。
これにより、モデルがその創発的値表現に基づいてトークンのコントリビューションを抑制できる直接的な規制経路が生成される。
実験により,VGAは注目シンクの形成を著しく軽減し,値-状態ノルムを安定化させ,性能の向上,堅牢な量子化フィディリティ,モデル解釈可能性の向上を実現した。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study [44.170933007736984]
VLM(Vision-Language Models)は、実用的展開において強力だが計算集約的な手法である。
現在のアクセラレーション評価は主に、重要な問題を見越して、パフォーマンスの最小限のパフォーマンス劣化を目標としています。
これは、AIベースの疾患診断のように、特定の既知の状況に対して常に正しい回答が最重要である、安定性中心の産業アプリケーションにとって不可欠である。
論文 参考訳(メタデータ) (2025-03-09T22:16:48Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Gradformer: Graph Transformer with Exponential Decay [69.50738015412189]
グラフ変換器(GT)の自己保持機構は、グラフの帰納バイアス、特に構造に関するバイアスを見落としている。
本稿では,GTと本質的帰納バイアスを革新的に統合するGradformerを提案する。
GradformerはグラフニューラルネットワークやGTベースラインモデルよりも、さまざまなグラフ分類や回帰タスクにおいて一貫して優れています。
論文 参考訳(メタデータ) (2024-04-24T08:37:13Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。