論文の概要: OPSDL: On-Policy Self-Distillation for Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2604.17535v1
- Date: Sun, 19 Apr 2026 16:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.574503
- Title: OPSDL: On-Policy Self-Distillation for Long-Context Language Models
- Title(参考訳): OPSDL:長期言語モデルのためのオンライン自己拡張
- Authors: Xinsen Zhang, Zhenkai Ding, Tianjun Pan, Run Yang, Chun Kang, Xue Xiong, Jingnan Gu,
- Abstract要約: OPSDL (On-Policy Self-Distillation) は、大規模言語モデルの長文能力を高めるためのオンライン自己蒸留法である。
OPSDLを7Bから32Bパラメータの長文ベンチマークで評価した。
- 参考スコア(独自算出の注目度): 3.2617036218058413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending the effective context length of large language models (LLMs) remains a central challenge for real-world applications. While recent post-training methods have made progress in long-context scaling, they either rely on high-quality supervision data or sparse sequence-level rewards, leading to unstable and inefficient optimization. We propose OPSDL, an On-Policy Self-Distillation method for enhancing the Long-context capabilities of LLMs. Unlike other recent self-distillation methods that inject privileged information and rely on the model's in-context learning ability to act as a teacher, OPSDL leverages the model's own inherently strong short-context capability as a self-teacher to supervise its own generation in long-context scenarios. The model first generates responses conditioned on the full long-context, then the self-teacher provides per-token supervision signals via point-wise reverse KL divergence under the relevant extracted short-context. This dense token-level signal encourages faithful use of relevant evidence and mitigates hallucinations induced by irrelevant context. We evaluate OPSDL on long-context benchmarks across a range of models from 7B to 32B parameters. Results show consistent and substantial improvements across varying context lengths, outperforming standard post-training approaches such as SFT and DPO with higher sample efficiency. Notably, these gains are achieved without degrading general short-context performance. These findings highlight the effectiveness of OPSDL as a scalable and stable approach for long-context learning.
- Abstract(参考訳): 大規模言語モデル(LLM)の有効コンテキスト長を拡張することは、現実世界のアプリケーションにとって重要な課題である。
最近のポストトレーニング手法は、長期コンテキストのスケーリングに進歩しているが、それらは高品質の監視データまたはスパースシーケンスレベルの報酬に依存しており、不安定で非効率な最適化につながっている。
我々は,LLMの長文化能力を高めるためのオンライン自己蒸留法であるOPSDLを提案する。
特権情報を注入し、教師として振る舞うためのモデル内での学習能力に依存する、他の最近の自己蒸留法とは異なり、OPSDLは、自己教師として本質的に強力な短文能力を活用して、長いコンテキストシナリオにおいて自身の世代を監督する。
モデルはまず、全長コンテキストで条件付き応答を生成し、その後、自己学習者は、関連する抽出された短コンテキストの下で、ポイントワイド逆KL分散を介して、トーケン毎の監視信号を提供する。
この密集したトークンレベルのシグナルは、関連する証拠の忠実な使用を促進し、無関係な文脈によって引き起こされる幻覚を緩和する。
OPSDLを7Bから32Bパラメータの長文ベンチマークで評価した。
その結果,SFT や DPO などの訓練後の標準的な手法よりも高い効率で,コンテキスト長の異なる改良が得られた。
特に、これらの利得は一般的な短文性能を低下させることなく達成される。
これらの結果は,長期学習のためのスケーラブルで安定したアプローチとしてのOPSDLの有効性を浮き彫りにした。
関連論文リスト
- LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling [45.520815757751194]
長コンテキストRM評価に特化して設計されたベンチマークであるLong-RewardBenchを紹介する。
予備研究により、最先端の生成型RMでさえ、長いコンテキストシナリオにおいて重大な脆弱性を示すことが明らかとなった。
本稿では、任意のモデルを堅牢なLong-context RMに効果的にスケールする一般的なマルチステージトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-10-08T11:48:16Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - GATEAU: Selecting Influential Samples for Long Context Alignment [59.579128690086385]
GATEAUは、長距離依存関係に富む影響力のあるサンプルを同定する。
選択されたサンプルに基づいて訓練されたモデルは、より良い指示追従と長文理解能力を示す。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。