論文の概要: Where Does Long-Context Supervision Actually Go? Effective-Context Exposure Balancing
- arxiv url: http://arxiv.org/abs/2605.10544v1
- Date: Mon, 11 May 2026 13:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.844874
- Title: Where Does Long-Context Supervision Actually Go? Effective-Context Exposure Balancing
- Title(参考訳): ロングコンテキストスーパービジョンは実際にどこへ行くのか? 効果的なコンテキスト露光バランシング
- Authors: Jinchang Zhu, Jindong Li, Chengyu Zou, Rong Fu, Chao Wang, Haowei He, Menglin Yang,
- Abstract要約: 長いコンテキスト適応はしばしばウィンドウスケーリングと見なされるが、トークンレベルの監視ミスマッチを見逃す。
我々は、長期有効コンテキスト目標に余分な重みを割り当てる監視割当目的であるEXACTを紹介する。
長いコンテキスト適応は、いかに強いトレーニングが長いコンテキスト予測を監督するかに依存します。
- 参考スコア(独自算出の注目度): 6.488481641971471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context adaptation is often viewed as window scaling, but this misses a token-level supervision mismatch: in packed training with document masking, each target token's effective context remains short. We introduce EXACT, a supervision-allocation objective that assigns extra weight to long effective-context targets by inverse frequency within the long tail. Across seven Qwen/LLaMA CPT configurations, EXACT improves all 28 trained/extrapolated NoLiMa and RULER comparisons. On Qwen2.5-0.5B, NoLiMa improves by +10.09 (trained) and +5.34 (extrapolated); RULER by +10.69 and +5.55. On LLaMA-3.2-3B, RULER improves by +17.91 and +16.11. Standard QA/reasoning are preserved (+0.24 macro change across six benchmarks). A distance-resolved probe shows gains arise when evidence is thousands of tokens away, while short cases remain unchanged. Results support a supervision-centric thesis: long-context adaptation depends on how strongly training supervises long-context predictions.
- Abstract(参考訳): 長いコンテキスト適応はウィンドウスケーリングと見なされることが多いが、これはトークンレベルの監視ミスマッチを見逃している。
長い尾の逆周波数による長実効コンテキストターゲットに余分な重みを割り当てる監視割当目的の EXACT を導入する。
7つのQwen/LLaMA CPT構成で、EXACTは28のトレーニング/検査されたNoLiMaとRULERの比較を改善している。
Qwen2.5-0.5Bでは、NoLiMaは+10.09(訓練)と+5.34(外挿)に改善され、RULERは+10.69と+5.55に改善された。
LLaMA-3.2-3Bでは、RULERは+17.91と+16.11に改善されている。
標準QA/resoningは6つのベンチマークで+0.24マクロ変更)保存される。
距離分解されたプローブは、証拠が何千ものトークンから離れたところで発生し、短いケースは変化しない。
長いコンテキスト適応は、いかに強いトレーニングが長いコンテキスト予測を監督するかに依存します。
関連論文リスト
- FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning [46.87750193423974]
FocuSFTは、大規模言語モデルの双方向最適化フレームワークである。
応答の因果マスキングを維持しながら、コンテキストトークンに対して双方向の注意を払っている。
注意分析により、FocuSFTは注意シンクの質量を529$times$で減らし、トレーニング中にコンテキストエンゲージメントを3倍にすることが示された。
論文 参考訳(メタデータ) (2026-05-11T03:30:35Z) - Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation [86.62036852878354]
大規模言語モデル(LLM)は、信頼性の高い長文理解を必要とする設定でますます運用される。
位置ロバスト性を向上させるトレーニングレギュレータであるRoPE-Perturbed Self-Distillationを提案する。
Llama-3-8BとQwen-3-4Bの長文適応実験は、長文ベンチマークにおいて一貫した利得を示す。
論文 参考訳(メタデータ) (2026-04-15T18:46:35Z) - Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs [39.99645732873852]
予測時間の戦略は、リターンが急速に減少し、長いコンテキストで失敗することを示している。
静的自己認識の限界を克服する簡単な方法を提案する。
本手法は,LongBench-v2 および ZeroScrolls ベンチマークのサブセットの平均値において,Qwen3-4B に対する 12.6 および 14.1 パーセントの大幅な改善をもたらす。
論文 参考訳(メタデータ) (2025-12-15T21:01:37Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack [4.3482088816575155]
BABILongベンチマークを導入し、長い文書に散在する事実を推論する言語モデルの能力をテストする。
BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。
評価の結果,LLM は文脈の 10-20% しか有効に利用できず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
論文 参考訳(メタデータ) (2024-06-14T16:00:29Z) - Long-context LLMs Struggle with Long In-context Learning [39.84597097614607]
28から174のクラスを持つ6つのデータセットと2Kから50Kトークンの入力長を用いて、極端ラベル分類における長い文脈内学習のベンチマークを導入する。
15個の長文LLMを評価した結果,ラベル空間が小さく,デモンストレーションが短い,難易度が低い分類タスクでうまく機能していることが判明した。
さらなる分析により、後述のラベルに対するバイアスと、複数の情報に対する推論の改善の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T15:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。