論文の概要: Attention Projection Mixing and Exogenous Anchors
- arxiv url: http://arxiv.org/abs/2601.08131v1
- Date: Tue, 13 Jan 2026 01:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.008921
- Title: Attention Projection Mixing and Exogenous Anchors
- Title(参考訳): 注意投影混合と外因性アンカー
- Authors: Jonathan Su,
- Abstract要約: シーケンシャル・レイヤ・スタックの外で専用のアンカー・プロジェクションを学習するExoFormerを提案する。
ExoFormerの変種は、内部アンカーの変種よりも一貫して優れています。
ExoFormerは標準のGated Attentionに比べて2倍のアテンションシンクを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers that reuse early-layer attention projections as residuals face a fundamental tension: the first layer must simultaneously serve as a stable reference for all deeper layers and as an effective computational block. To resolve this, we propose ExoFormer, which learns dedicated exogenous anchor projections outside the sequential layer stack, decoupling the anchor role from computational refinement. Through a unified normalized mixing framework (studying different coefficient granularities: elementwise, headwise, scalar) across all attention pathways (queries, keys, values, and gate logits), ExoFormer variants consistently outperform their internal-anchor counterparts. Moreover, the dynamic variant achieves a 2.13-point increase in downstream accuracy over the baseline and demonstrates superior data efficiency, matching baseline validation loss with 1.84x fewer tokens. ExoFormer also achieves a 2x reduction in attention sink compared to standard Gated Attention. Paradoxically, all ExoFormer variants exhibit signs of representation collapse. We explain this via an Offloading Hypothesis: external anchors preserve essential token identity, allowing layers to specialize exclusively in computational refinement. We release codes and models to facilitate future research.
- Abstract(参考訳): 残差として初期層アテンションプロジェクションを再利用するトランスフォーマーは、基本的な緊張に直面している。
そこで我々は,ExoFormerを提案する。ExoFormerは,逐次的なレイヤスタックの外側で,アンカーロールを計算精細化から切り離して,専用のアンカープロジェクションを学習する。
統一された正規化混合フレームワーク(要素ワイド、ヘッドワイド、スカラー)を通じて、すべての注意経路(クエリ、キー、値、ゲートロジット)をまたいで、ExoFormerは内部アンカーよりも一貫して優れています。
さらに、動的変種は、ベースラインよりもダウンストリーム精度が2.13ポイント向上し、より優れたデータ効率を示し、ベースラインバリデーション損失を1.84倍少ないトークンと一致させる。
ExoFormerは標準のGated Attentionに比べて2倍のアテンションシンクを実現している。
パラドックス的には、すべてのExoFormer変種は表現崩壊の兆候を示す。
外部アンカーは重要なトークンの同一性を保ち、層は計算の洗練に特化することができる。
将来の研究を促進するためのコードとモデルをリリースします。
関連論文リスト
- STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。
我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文 参考訳(メタデータ) (2025-11-24T06:20:02Z) - Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition [9.83509397800422]
2つのコア設計を持つ適応的で効率的なスパーストランスフォーマーアーキテクチャ (Fraesormer) を提案する。
ATK-SPAは学習可能なGated Dynamic Top-K Operator (GDTKO)を使用して重要な注意点を保持する。
HSSFGNはマルチスケールの特徴表現を実現するためにゲーティング機構を採用している。
論文 参考訳(メタデータ) (2025-03-15T05:13:26Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Polarized Self-Attention: Towards High-quality Pixel-wise Regression [19.2303932008785]
本稿では,高画質画素ワイドレグレッションに対する2つの重要な設計を組み込んだPSAブロックを提案する。
実験の結果,PSAは2Dポーズ推定とセマンティックセグメンテーションのベンチマークにおいて,標準ベースラインを2~4ドル,最先端を1~2ドル,さらに2Dポーズ推定とセマンティックセグメンテーションのベンチマークで1~2ドル向上した。
論文 参考訳(メタデータ) (2021-07-02T01:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。