Fugu-MT 論文翻訳(概要): Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

論文の概要: Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

arxiv url: http://arxiv.org/abs/2603.11487v1
Date: Thu, 12 Mar 2026 03:13:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.840911
Title: Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks
Title（参考訳）: ソフトマックス変圧器における注意シンクはおそらく必要である:トリガー・コンディショナル・タスクからの証拠
Authors: Yuval Ran-Milo,
Abstract要約: 簡単なトリガー条件の計算は,ソフトマックス自己注意モデルにおけるシンクを誘導する。また,非正規化ReLUアテンションがシンクなしで同じ課題を解決できることも証明した。
参考スコア（独自算出の注目度）: 1.6921396880325779
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers often display an attention sink: probability mass concentrates on a fixed, content-agnostic position. We prove that computing a simple trigger-conditional behavior necessarily induces a sink in softmax self-attention models. Our results formalize a familiar intuition: normalization over a probability simplex must force attention to collapse onto a stable anchor to realize a default state (e.g., when the model needs to ignore the input). We instantiate this with a concrete task: when a designated trigger token appears, the model must return the average of all preceding token representations, and otherwise output zero, a task which mirrors the functionality of attention heads in the wild (Barbero et al., 2025; Guo et al., 2024). We also prove that non-normalized ReLU attention can solve the same task without any sink, confirming that the normalization constraint is the fundamental driver of sink behavior. Experiments validate our predictions and demonstrate they extend beyond the theoretically analyzed setting: softmax models develop strong sinks while ReLU attention eliminates them in both single-head and multi-head variants.
Abstract（参考訳）: トランスフォーマーはしばしば注意シンクを表示し、確率質量は固定された内容に依存しない位置に集中する。単純なトリガー条件の計算は、必ずしもソフトマックス自己注意モデルにおけるシンクを誘導する。確率的単純性に対する正規化は、デフォルトの状態(例えば、モデルが入力を無視する必要がある場合)を実現するために、安定なアンカーに注意を向ける必要がある。指定されたトリガートークンが現れると、モデルがすべての先行するトークン表現の平均を返さなければならず、そうでなければ、野生の注目ヘッドの機能を反映するタスクであるゼロを出力しなければならない(Barbero et al , 2025; Guo et al , 2024)。また、非正規化ReLU注意がシンクなしで同じ課題を解決できることを証明し、正規化制約がシンク動作の基本的な要因であることを確認した。ソフトマックスモデルは強いシンクを発達させ、ReLUはそれらを単頭と多頭の両方の変種で排除する。

関連論文リスト

A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文参考訳（メタデータ） (2026-01-30T13:29:45Z)
Attention Projection Mixing with Exogenous Anchors [0.0]
早期注意投影の層間再利用はデータの効率を向上させるが、構造的な衝突を引き起こす。この衝突は、内部アンカー設計の隠れた制限であることを示す。逐次レイヤスタックの外でアンカープロジェクションを学習することで競合を解決するExoFormerを提案する。
論文参考訳（メタデータ） (2026-01-13T01:52:19Z)
Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文参考訳（メタデータ） (2025-11-26T20:02:59Z)
Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文参考訳（メタデータ） (2025-06-17T01:19:28Z)
Least Squares and Marginal Log-Likelihood Model Predictive Control using Normalizing Flows [0.0]
本研究は,動的学習のための離散時間モデルとして条件正規化フローを提案する。原子炉実験において、正規化流MPCは開ループおよび閉ループの場合のセットポイント誤差を名目制御器の半分に低減する。
論文参考訳（メタデータ） (2024-09-26T08:28:14Z)
When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。 deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文参考訳（メタデータ） (2023-07-06T04:13:57Z)
Transformers meet Stochastic Block Models: Attention with Data-Adaptive Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文参考訳（メタデータ） (2022-10-27T15:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。