論文の概要: Differential Gated Self-Attention
- arxiv url: http://arxiv.org/abs/2505.24054v1
- Date: Thu, 29 May 2025 22:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.692005
- Title: Differential Gated Self-Attention
- Title(参考訳): Differential Gated Self-Attention
- Authors: Elpiniki Maria Lygizou, Mónika Farsang, Radu Grosu,
- Abstract要約: マルチヘッド差分ゲーテッド・セルフアテンションは、ヘッドごとの入力依存ゲーティングを学習し、注意雑音を動的に抑制する。
筆者らの貢献は, 側方抑制を基礎とした自己保持のための新たな入力依存型ゲーティング機構, (ii) 生物学的コントラスト増強と自己保持理論の原理的合成, (iii) 耐雑音性およびクロスドメイン適用性を示す総合的な実験である。
- 参考スコア(独自算出の注目度): 6.884675991203353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers excel across a large variety of tasks but remain susceptible to corrupted inputs, since standard self-attention treats all query-key interactions uniformly. Inspired by lateral inhibition in biological neural circuits and building on the recent use by the Differential Transformer's use of two parallel softmax subtraction for noise cancellation, we propose Multihead Differential Gated Self-Attention (M-DGSA) that learns per-head input-dependent gating to dynamically suppress attention noise. Each head splits into excitatory and inhibitory branches whose dual softmax maps are fused by a sigmoid gate predicted from the token embedding, yielding a context-aware contrast enhancement. M-DGSA integrates seamlessly into existing Transformer stacks with minimal computational overhead. We evaluate on both vision and language benchmarks, demonstrating consistent robustness gains over vanilla Transformer, Vision Transformer, and Differential Transformer baselines. Our contributions are (i) a novel input-dependent gating mechanism for self-attention grounded in lateral inhibition, (ii) a principled synthesis of biological contrast-enhancement and self-attention theory, and (iii) comprehensive experiments demonstrating noise resilience and cross-domain applicability.
- Abstract(参考訳): トランスフォーマーは様々なタスクにまたがっているが、標準のセルフアテンションは全てのクエリキーのインタラクションを均一に扱うため、入力の破損の影響を受けやすい。
生体神経回路における横方向の抑制や、ディファレンシャルトランスフォーマーによるノイズキャンセリングのための2つの並列ソフトマックスサブトラクションの使用により、近年の使用にインスパイアされたM-DGSA(Multihead Differential Gated Self-Attention)を提案する。
各ヘッドは、トークン埋め込みから予測されるシグモイドゲートによって2つのソフトマックスマップが融合した興奮的および阻止的枝に分かれ、コントラストの強化をもたらす。
M-DGSAは計算オーバーヘッドを最小限に抑えた既存のTransformerスタックにシームレスに統合する。
バニラ変換器,ビジョン変換器,微分変換器のベースラインに対して一貫した堅牢性向上を示す。
コントリビューション
i) 側方抑制を基礎とした自己注意のための新しい入力依存的ゲーティング機構。
二 生物学的コントラスト強化及び自己注意理論の原則的合成、及び
三 耐雑音性及びクロスドメイン適用性を示す総合的な実験。
関連論文リスト
- Mechanistic Insights into Grokking from the Embedding Layer [15.676058752772287]
ニューラルネットワークの遅延一般化であるGrokkingは、トランスフォーマーやスタタネートで観測されているが、それを駆動するコンポーネントはまだ探索されていない。
埋め込みはグルーキングの中心であり、インプットの導入はモジュラー演算タスクにおける遅延一般化を誘導する。
我々の手法はグルーキング力学を改良するだけでなく、バイ線形相互作用が効率的なトレーニングを妨げるトランスフォーマー最適化の幅広い課題にまで拡張する。
論文 参考訳(メタデータ) (2025-05-21T15:12:34Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Are Transformers with One Layer Self-Attention Using Low-Rank Weight
Matrices Universal Approximators? [37.820617032391404]
低ランクの重み付き自己注意層が入力シーケンス全体のコンテキストを完全にキャプチャする能力を持っていることを示す。
単層および単頭トランスフォーマーは、有限サンプルに対する記憶能力を持ち、2つのフィードフォワードニューラルネットワークを持つ1つの自己アテンション層からなるトランスフォーマーは、コンパクトドメイン上の連続置換同変関数の普遍近似器である。
論文 参考訳(メタデータ) (2023-07-26T08:07:37Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Exploring Transferable and Robust Adversarial Perturbation Generation
from the Perspective of Network Hierarchy [52.153866313879924]
敵の例の移動可能性と堅牢性は、ブラックボックスの敵攻撃の実用的かつ重要な2つの性質である。
伝送可能で頑健な逆生成法(TRAP)を提案する。
我々のTRAPは、ある種の干渉に対して印象的な伝達性と高い堅牢性を実現する。
論文 参考訳(メタデータ) (2021-08-16T11:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。