論文の概要: Why Attend to Everything? Focus is the Key
- arxiv url: http://arxiv.org/abs/2604.03260v1
- Date: Thu, 12 Mar 2026 14:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.564125
- Title: Why Attend to Everything? Focus is the Key
- Title(参考訳): なぜあらゆることに取り組むのか?焦点が鍵
- Authors: Hengshuai Yao, Xing Chen, Ahmed Murtadha, Jin Li, Shuai Shao, Yasin Abbasi Yadkori, Guan Wang, Mingli Yuan, William Chen, Sen Song,
- Abstract要約: 学習可能なセントロイドはトークンをグループに割り当てる。
Focus は 7B スケール (2B トークン) でスクラッチから訓練され、Focus は (13.82 対 13.89 PPL) フルアテンションに打ち勝つ(30.3 対 31.4 PPL)。
LoRAとは異なり、Centroidルーティングはアライメントを保ち、命令調整されたモデルは適応後にTrathfulQAスコアを保持する。
- 参考スコア(独自算出の注目度): 25.998449129334897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Focus, a method that learns which token pairs matter rather than approximating all of them. Learnable centroids assign tokens to groups; distant attention is restricted to same-group pairs while local attention operates at full resolution. Because all model weights stay frozen, Focus is purely additive: centroid-only training (as few as 148K parameters) improves domain perplexity with zero degradation on downstream benchmarks--from 124M to 70B parameters, across five attention architectures. No existing efficient attention method achieves this in the retrofit setting. At 124M, Focus surpasses full attention (30.3 vs 31.4 PPL); trained from scratch at 7B scale (2B tokens), Focus again beats full attention (13.82 vs 13.89 PPL). At inference, restricting each token to its top-k highest-scoring groups discretizes the soft routing into a hard sparsity pattern, yielding 2x speedup while beating the pretrained baseline (41.3 vs 42.8 PPL); decomposing this pattern into two standard FlashAttention calls reaches 8.6x wall-clock speedup at 1M tokens with no custom kernels. Unlike LoRA, centroid routing preserves alignment: instruction-tuned models retain TruthfulQA scores after adaptation, while LoRA degrades at every learning rate and rank. Sinkhorn normalization enforces balanced groups as a hard constraint, and the resulting groups discover interpretable linguistic categories without supervision.
- Abstract(参考訳): 全トークンを近似するのではなく,どのトークンペアが重要かを学習する手法であるFocusを紹介する。
学習可能なセントロイドはトークンをグループに割り当てる。
すべてのモデルウェイトが凍結されているため、Focusは純粋に追加的である: セントロイドのみのトレーニング(148Kパラメータまで)は、下流のベンチマークで1400Mから70Bパラメータの劣化を伴わず、ドメインの難易度を改善する。
既存の効率的なアテンション手法では、リファインメント設定でこれを実現することはできない。
124Mではフォーカスはフルアテンション(0.3対31.4 PPL)を超え、7Bスケール(2Bトークン)でスクラッチから訓練され、フォーカスは再びフルアテンション(13.82対13.89 PPL)を上回った。
推論では、各トークンをトップkの最高スコアグループに制限することで、ソフトルーティングをハードスペーサパターンに識別し、トレーニング済みのベースライン(41.3対42.8 PPL)を上回りながら2倍のスピードアップを実現し、このパターンを2つの標準FlashAttentionコールに分解すると、カスタムカーネルを持たない1Mトークンで8.6倍の速度アップに達する。
LoRAとは異なり、Centroidルーティングはアライメントを保ち、命令調整されたモデルは適応後にTrathfulQAスコアを保持する。
シンクホーン正規化(Sinkhorn normalization)は、バランスの取れた群をハード制約として強制し、結果として得られる群は、監督なしで解釈可能な言語カテゴリーを発見する。
関連論文リスト
- FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization [84.58281577727566]
本稿では,大規模言語モデルにおける推論ボトルネックを克服する強化学習アルゴリズムであるFuture-KL Influenced Policy Optimization (FIPO)を提案する。
FIPOは、割引先KLの分岐をポリシー更新に組み込むことでこの問題に対処し、その後の軌道行動への影響に基づいてトークンを再重み付けする密集した有利な定式化を作成する。
Qwen2.5-32Bで評価され、FIPOは平均チェーン長を約4,000から10,000以上のトークンに拡張し、AIME 2024 Pass@1の精度を50.0%から58.0%に向上させた。
論文 参考訳(メタデータ) (2026-03-20T10:24:50Z) - ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging [95.36377714370325]
注意に基づく複数インスタンス学習手法は、不安定な注意力学という新しい障害モードを示す。
本稿では,新しい統合フレームワークであるASMIL(At attention-stabilized multiple instance learning)を紹介する。
ASMILはアンカーモデルを用いて注意を安定させ、ソフトマックスをアンカー内の正規化シグモイド関数に置き換えて過集中を防ぐ。
論文 参考訳(メタデータ) (2026-03-01T18:31:13Z) - Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat [0.0]
疎い注意がエンドツーエンドにトレーニングされると、モデルのQ/K/V投影は、どんなマスクにも適応する。
微分可能なソフトゲーティングは、ゲートが学習されているかランダムであるかに関わらず、ほぼ同じ難易度に収束する。
専門家はどのルーターにも適応するが、注意は構造的により厳しい形を示すことを示している。
論文 参考訳(メタデータ) (2026-02-11T15:06:44Z) - Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models [0.0]
Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。
GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
論文 参考訳(メタデータ) (2026-01-12T20:33:39Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining [36.70261826975876]
ソフトマックスアテンションの効率的な近似であるmultipole Semantic Attention (MuSe)を提案する。
本手法は,クエリとキーを個別にクラスタリングすることで,コンテクスト長の変換器の2次計算複雑性に対処する。
因果的注意を喚起するために、正確な局所計算と効率的な長距離近似を組み合わせた階層的ブロック分解を開発する。
論文 参考訳(メタデータ) (2025-09-12T16:58:17Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。