論文の概要: FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.09932v1
- Date: Mon, 11 May 2026 03:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.49605
- Title: FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning
- Title(参考訳): FocuSFT: 希釈を考慮した長期微調整のための双方向最適化
- Authors: Zehua Pei, Hui-Ling Zhen, Xianzhi Yu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu,
- Abstract要約: FocuSFTは、大規模言語モデルの双方向最適化フレームワークである。
応答の因果マスキングを維持しながら、コンテキストトークンに対して双方向の注意を払っている。
注意分析により、FocuSFTは注意シンクの質量を529$times$で減らし、トレーニング中にコンテキストエンゲージメントを3倍にすることが示された。
- 参考スコア(独自算出の注目度): 46.87750193423974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can now process increasingly long inputs, yet their ability to effectively use information spread across long contexts remains limited. We trace this gap to how attention budget is spent during supervised fine-tuning (SFT) on long sequences: positional biases and attention sinks cause the model to allocate most of its attention to positionally privileged tokens rather than semantically relevant content. This training-time attention dilution (the starvation of content tokens in the attention distribution) weakens the gradient signal, limiting the model's ability to learn robust long-context capabilities. We introduce FocuSFT, a bilevel optimization framework that addresses this problem at training time. An inner loop adapts lightweight fast-weight parameters on the training context to form a parametric memory that concentrates attention on relevant content, and the outer loop performs SFT conditioned on this sharpened representation. Both loops apply bidirectional attention over context tokens while preserving causal masking for responses, reducing the causal asymmetry that gives rise to attention sinks and aligning inner-outer behavior. On BABILong, FocuSFT improves accuracy by up to +14pp across 4K--32K context lengths; on RULER, it raises CWE aggregation from 72.9\% to 81.1\% at 16K; and on GPQA with agentic tool use, it yields a 24\% relative gain in pass@1. Attention analysis shows that FocuSFT reduces attention sink mass by 529$\times$ and triples context engagement during training. Code: https://github.com/JarvisPei/FocuSFT
- Abstract(参考訳): 大規模言語モデルは、ますます長い入力を処理できるようになったが、長いコンテキストにまたがる情報を効果的に活用する能力は、依然として限られている。
位置バイアスと注意シンクは、意味的に関係のあるコンテンツではなく、そのほとんどの注意を、位置的に特権付けられたトークンに割り当てる。
このトレーニングタイムアテンション希釈(注意分布におけるコンテンツトークンの飢餓)は勾配信号を弱め、モデルが堅牢な長期コンテキスト能力を学ぶ能力を制限する。
トレーニング時にこの問題に対処する双方向最適化フレームワークであるFocuSFTを紹介した。
内ループは、トレーニングコンテキスト上の軽量な高速パラメータに適応して、関連するコンテンツに注意を集中するパラメトリックメモリを形成し、外ループは、このシャープ化された表現に条件付けされたSFTを実行する。
両方のループは、応答に対する因果マスクを保持しながら、コンテキストトークンに対して双方向の注意を向け、注意シンクを引き起こす因果非対称性を減らし、インナー・アウターの振る舞いを整列させる。
BABILongでは、FocuSFTは4K-32Kコンテキスト長で+14ppまで精度を向上し、RULERではCWEアグリゲーションを72.9\%から81.1\%まで16Kで上げ、GPQAではエージェントツールの使用でパス@1で24\%の利得を得る。
注意分析により、FocuSFTは注意シンクの質量を529$\times$に減らし、トレーニング中にコンテキストエンゲージメントを3倍にすることが示された。
コード:https://github.com/JarvisPei/FocuSFT
関連論文リスト
- FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing [18.405286688847827]
Diffusion Large Language Models (dLLMs) は、非自己回帰デコードパラダイムで強力な長文処理機能を提供する。
提案するFocus-dLLMは,高精度で高精度な長文dLLM推論に適した,新しいトレーニング不要な注意スペルシフィケーションフレームワークである。
論文 参考訳(メタデータ) (2026-02-02T14:36:10Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。
我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。
我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文 参考訳(メタデータ) (2024-11-20T17:22:31Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Long Sequence Modeling with Attention Tensorization: From Sequence to Tensor Learning [20.51822826798248]
本稿では、長い入力列をコンパクトなテンソル表現にテンソル化し、各変換次元に注意を向けることで、注意領域を拡大することを提案する。
提案手法は,トークンの依存関係をマルチホップアテンションプロセスとして符号化し,フルアテンションのクロネッカー分解と等価であることを示す。
論文 参考訳(メタデータ) (2024-10-28T11:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。