論文の概要: Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.02684v1
- Date: Mon, 01 Jun 2026 17:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.514137
- Title: Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation
- Title(参考訳): フィルター, そしてリウェイト: オンライン蒸留における最適化の粒度を再考する
- Authors: Yuying Li, Leqi Zheng, Yongzi Yu, Wenrui Zhou, Xuchang Zhong, Xing Hu, Jing Jin, Huangjie Yuan, Tao Feng,
- Abstract要約: 大規模言語モデルにおけるオンライン蒸留(OPD)は、完全なKLの監督からより選択的な訓練パラダイムへと移行しつつある。
近年のOPD法では,どの軌跡から学ぶか,どのトークンが最も情報的か,どの信号が最も信頼できるかの選択に注目が集まっている。
本稿では,ファリコンFiRe-OPD(Filter, then Reweight)を提案する。
- 参考スコア(独自算出の注目度): 8.915536390618232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-Policy distillation (OPD) in large language models is shifting from full-trace KL supervision toward more selective training paradigms. Recent OPD methods increasingly focus on selecting which trajectories to learn from, which tokens are most informative, and which supervision signals are most reliable. Motivated by this trend, we rethink optimization granularity of OPD and propose \fireicon\ FiRe-OPD (Filter, then Reweight), which jointly adjusts supervision signals at both trajectory and token levels. In details, FiRe-OPD first filters trajectories to remove low-quality rollout samples, and then applies soft reweighting within the retained trajectories to emphasize informative tokens. Compared with hard token selection, FiRe-OPD leverages a soft-weighting mechanism to effectively mitigate information loss and enhance optimization stability, thereby achieving finer-grained OPD optimization. We validate the effectiveness of FiRe-OPD across strong-to-weak, single-teacher, and multi-teacher settings, and demonstrate its superiority over recent token-level OPD methods ( (e.g., +6.25 on AIME 2024 in strong-to-weak, +18.81 on Miner in multi-teacher). Our code is available at https://github.com/YuYingLi0/FiRe-OPD.
- Abstract(参考訳): 大規模言語モデルにおけるオンライン蒸留(OPD)は、完全なKLの監督からより選択的な訓練パラダイムへと移行しつつある。
近年のOPD法では,どの軌跡から学ぶか,どのトークンが最も情報的か,どの信号が最も信頼できるかの選択に注目が集まっている。
この傾向に触発されて、PDの最適化の粒度を再考し、軌跡レベルとトークンレベルの両方で監視信号を協調的に調整する \fireicon\ FiRe-OPD (Filter, then Reweight) を提案する。
詳細は、FiRe-OPDがトラジェクトリをフィルタリングして、低品質なロールアウトサンプルを除去し、その後、保持されたトラジェクトリにソフトリヘアリングを適用して、情報的トークンを強調する。
ハードトークン選択と比較して、FiRe-OPDはソフトウェイト機構を利用して情報損失を効果的に軽減し、最適化安定性を向上し、よりきめ細かいOPD最適化を実現する。
近年のトークンレベルの OPD 手法よりも,FiRe-OPD が有効であることを示す(例えば,AIME 2024 では +6.25 ,Multi-Teacher では +18.81 ,Multi-Teacher では Miner では +18.81 )。
私たちのコードはhttps://github.com/YuYingLi0/FiRe-OPD.comで利用可能です。
関連論文リスト
- Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation [51.210887267509854]
OPDの効率は、トレーニングの初期段階において最終モデルに向けた安定的な更新軌道を確立する、フォレスト・オブ・ザ・イヤーズ(foresight')の形式に起因している、と我々は主張する。
我々は、外挿ステップのサイズを適応的に選択し、現在の更新方向に沿って移動することにより、OPDを高速化するプラグイン・アンド・プレイ・アクセラレーション手法である textbfEffOPD を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:19:15Z) - MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization [66.81594613265833]
直接選好最適化(DPO)を拡張したPlackett--Luce(PL)モデルに基づくマルチ負の選好最適化
そこで本研究では,PL固有のフィッシャー情報目的を導出し,各プロンプト内のコンパクトで情報的な負の部分集合を選択するマルチ負のアクティブサンプル選択法であるMASS-DPOを紹介する。
MASS-DPOは、既存の手法を常に精度で上回り、リコール/NDCGとマージンベースの最適化のダイナミクスを改善し、かなり少ない負のアライメントを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:18:08Z) - GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning [55.03441672267886]
強化学習のための勾配整列データ選択法GradAlignを提案する。
GradAlignは,信頼できない報酬信号,分散不均衡,低ユーティリティトレーニングコーパスの3つにまたがって評価する。
論文 参考訳(メタデータ) (2026-02-25T01:54:50Z) - Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved) [3.13388270461847]
我々は、教師付き微調整(SFT)と強化学習(RL)による最適政策の発見理論と実践との関係を描いている。
SFTに小さな修正を加えることで、RLのトレーニングに近く行動する重み付き変異が重要となることを示す。
我々は、この変種を重み付けされた教師付き微調整(iw-SFT)として参照する。
論文 参考訳(メタデータ) (2025-07-17T07:26:54Z) - Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Permutative Preference Alignment from Listwise Ranking of Human Judgments [40.23480751285947]
我々はNDCGを異なる代理損失で近似することで、エンドツーエンドのアライメントアルゴリズムを開発する。
我々は,NDCGに基づく手法により,B-T法よりも効率よくランキング精度を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。