論文の概要: Attention Projection Mixing with Exogenous Anchors
- arxiv url: http://arxiv.org/abs/2601.08131v2
- Date: Thu, 22 Jan 2026 12:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 13:30:18.274998
- Title: Attention Projection Mixing with Exogenous Anchors
- Title(参考訳): 外因性アンカーと混在する注意投影
- Authors: Jonathan Su,
- Abstract要約: 早期注意投影の層間再利用はデータの効率を向上させるが、構造的な衝突を引き起こす。
この衝突は、内部アンカー設計の隠れた制限であることを示す。
逐次レイヤスタックの外でアンカープロジェクションを学習することで競合を解決するExoFormerを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-layer reuse of early attention projections can improve optimization and data efficiency, but it creates a structural conflict: the first layer must simultaneously act as a stable, reusable anchor for all deeper layers and as an effective computational block. We show this ''first-layer tension'' is a hidden limiter of internal-anchor designs. We propose ExoFormer, which resolves the conflict by learning exogenous anchor projections outside the sequential layer stack, decoupling the anchor role from computational refinement. We introduce a unified normalized mixing framework that mixes queries, keys, values, and gate logits using learnable coefficients (exploring coefficient granularities: elementwise/headwise/scalar), and we show that normalizing anchor sources is key to stable reuse. ExoFormer variants consistently outperform their internal-anchor counterparts, and the dynamic variant yields 1.5 downstream accuracy points while matching validation loss using 1.5x fewer tokens than Gated Attention. We explain this efficacy via an Offloading Hypothesis: external anchors preserve essential token identity, allowing layers to specialize exclusively in refinement. We release code and models to facilitate future research.
- Abstract(参考訳): 初期アテンションプロジェクションのクロスレイヤ再利用は、最適化とデータ効率を改善することができるが、構造的な衝突を引き起こす。
この「第一層張力」は内アンカー設計の隠された限界であることを示す。
逐次レイヤスタックの外側で外因性アンカープロジェクションを学習し,計算処理からアンカーロールを分離することで,コンフリクトを解消するExoFormerを提案する。
本稿では,学習可能な係数を用いてクエリ,キー,値,ゲートロジットを混合する統一正規化混合フレームワークを提案する。
ExoFormerの変種は、内部アンカーの変種よりも一貫して優れており、動的変種は1.5下流の精度ポイントを獲得し、検証損失はGated Attentionの1.5倍少ないトークンで一致する。
外部アンカーは重要なトークンの同一性を保ち、層は精細化に特化することができる。
将来の研究を促進するために、コードとモデルをリリースします。
関連論文リスト
- STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。
我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文 参考訳(メタデータ) (2025-11-24T06:20:02Z) - Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition [9.83509397800422]
2つのコア設計を持つ適応的で効率的なスパーストランスフォーマーアーキテクチャ (Fraesormer) を提案する。
ATK-SPAは学習可能なGated Dynamic Top-K Operator (GDTKO)を使用して重要な注意点を保持する。
HSSFGNはマルチスケールの特徴表現を実現するためにゲーティング機構を採用している。
論文 参考訳(メタデータ) (2025-03-15T05:13:26Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Polarized Self-Attention: Towards High-quality Pixel-wise Regression [19.2303932008785]
本稿では,高画質画素ワイドレグレッションに対する2つの重要な設計を組み込んだPSAブロックを提案する。
実験の結果,PSAは2Dポーズ推定とセマンティックセグメンテーションのベンチマークにおいて,標準ベースラインを2~4ドル,最先端を1~2ドル,さらに2Dポーズ推定とセマンティックセグメンテーションのベンチマークで1~2ドル向上した。
論文 参考訳(メタデータ) (2021-07-02T01:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。