論文の概要: Attention Projection Mixing and Exogenous Anchors
- arxiv url: http://arxiv.org/abs/2601.08131v1
- Date: Tue, 13 Jan 2026 01:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.008921
- Title: Attention Projection Mixing and Exogenous Anchors
- Title(参考訳): 注意投影混合と外因性アンカー
- Authors: Jonathan Su,
- Abstract要約: シーケンシャル・レイヤ・スタックの外で専用のアンカー・プロジェクションを学習するExoFormerを提案する。
ExoFormerの変種は、内部アンカーの変種よりも一貫して優れています。
ExoFormerは標準のGated Attentionに比べて2倍のアテンションシンクを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers that reuse early-layer attention projections as residuals face a fundamental tension: the first layer must simultaneously serve as a stable reference for all deeper layers and as an effective computational block. To resolve this, we propose ExoFormer, which learns dedicated exogenous anchor projections outside the sequential layer stack, decoupling the anchor role from computational refinement. Through a unified normalized mixing framework (studying different coefficient granularities: elementwise, headwise, scalar) across all attention pathways (queries, keys, values, and gate logits), ExoFormer variants consistently outperform their internal-anchor counterparts. Moreover, the dynamic variant achieves a 2.13-point increase in downstream accuracy over the baseline and demonstrates superior data efficiency, matching baseline validation loss with 1.84x fewer tokens. ExoFormer also achieves a 2x reduction in attention sink compared to standard Gated Attention. Paradoxically, all ExoFormer variants exhibit signs of representation collapse. We explain this via an Offloading Hypothesis: external anchors preserve essential token identity, allowing layers to specialize exclusively in computational refinement. We release codes and models to facilitate future research.
- Abstract(参考訳): 残差として初期層アテンションプロジェクションを再利用するトランスフォーマーは、基本的な緊張に直面している。
そこで我々は,ExoFormerを提案する。ExoFormerは,逐次的なレイヤスタックの外側で,アンカーロールを計算精細化から切り離して,専用のアンカープロジェクションを学習する。
統一された正規化混合フレームワーク(要素ワイド、ヘッドワイド、スカラー)を通じて、すべての注意経路(クエリ、キー、値、ゲートロジット)をまたいで、ExoFormerは内部アンカーよりも一貫して優れています。
さらに、動的変種は、ベースラインよりもダウンストリーム精度が2.13ポイント向上し、より優れたデータ効率を示し、ベースラインバリデーション損失を1.84倍少ないトークンと一致させる。
ExoFormerは標準のGated Attentionに比べて2倍のアテンションシンクを実現している。
パラドックス的には、すべてのExoFormer変種は表現崩壊の兆候を示す。
外部アンカーは重要なトークンの同一性を保ち、層は計算の洗練に特化することができる。
将来の研究を促進するためのコードとモデルをリリースします。
関連論文リスト
- HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference [11.718567830546538]
大規模言語モデルにおける長文推論は、注意の2次計算の複雑さによってボトルネックとなる。
bf HyLRAは階層ワイド・スパシティ・プロファイリングによって駆動される新しいフレームワークである。
その結果,HyLRAは推論のスループットを6%から46%向上し,同等の性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-31T15:36:17Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。
我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文 参考訳(メタデータ) (2025-11-24T06:20:02Z) - Deconstructing Attention: Investigating Design Principles for Effective Language Modeling [37.92951508140559]
トランスフォーマー言語モデルは、ドット積の注意機構によって広く評価されている。
この研究は、これらの原則を緩和する制御された変種を設計することで、注意を体系的に分解する。
驚くべきことに、単独で失敗する変種でさえ、標準的な注意を引いた時に堅牢なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-10-13T16:42:14Z) - FLUID: Flow-Latent Unified Integration via Token Distillation for Expert Specialization in Multimodal Learning [1.912429179274357]
token Distillation for Expert Components を用いた textscFLUID-Flow-Latent Unified Integration を提案する。
textscFLUID は,(1) emphQ-transforms, 学習可能なクエリトークン, (2) コントラストアライメントによる相互整合を強制する2段階の融合スキーム, (3) 予測時の軽量でロードバランスのMixture-of-Experts の3要素に寄与する。
論文 参考訳(メタデータ) (2025-08-10T09:34:17Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition [9.83509397800422]
2つのコア設計を持つ適応的で効率的なスパーストランスフォーマーアーキテクチャ (Fraesormer) を提案する。
ATK-SPAは学習可能なGated Dynamic Top-K Operator (GDTKO)を使用して重要な注意点を保持する。
HSSFGNはマルチスケールの特徴表現を実現するためにゲーティング機構を採用している。
論文 参考訳(メタデータ) (2025-03-15T05:13:26Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Disentangled Interleaving Variational Encoding [1.132458063021286]
本稿では,変分オートエンコーダの潜時空間において,元の入力を限界値と条件値の確率分布に分解する原理的手法を提案する。
提案モデルであるDeep Disentangled Interleaving Variationalを提案する。
コーダ(DeepDIVE)は、元の入力から切り離された特徴を学習し、埋め込み空間にクラスタを形成する。
2つの公開データセットの実験は、DeepDIVEが元の入力をアンタングルし、元のVAEよりも予測精度が良いことを示している。
論文 参考訳(メタデータ) (2025-01-15T10:50:54Z) - Continuous Knowledge-Preserving Decomposition with Adaptive Layer Selection for Few-Shot Class-Incremental Learning [73.59672160329296]
CKPD-FSCILは、事前訓練された重量の未使用容量を解放する統合フレームワークである。
本手法は,適応性と知識保持の両面で,最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-01-09T07:18:48Z) - Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Defensive Tensorization [113.96183766922393]
本稿では,ネットワークの遅延高次分解を利用した対角防御手法であるテンソル防御手法を提案する。
我々は,標準画像分類ベンチマークにおけるアプローチの有効性を実証的に実証した。
我々は,音声タスクとバイナリネットワークを考慮し,ドメイン間のアプローチと低精度アーキテクチャの汎用性を検証した。
論文 参考訳(メタデータ) (2021-10-26T17:00:16Z) - Polarized Self-Attention: Towards High-quality Pixel-wise Regression [19.2303932008785]
本稿では,高画質画素ワイドレグレッションに対する2つの重要な設計を組み込んだPSAブロックを提案する。
実験の結果,PSAは2Dポーズ推定とセマンティックセグメンテーションのベンチマークにおいて,標準ベースラインを2~4ドル,最先端を1~2ドル,さらに2Dポーズ推定とセマンティックセグメンテーションのベンチマークで1~2ドル向上した。
論文 参考訳(メタデータ) (2021-07-02T01:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。