論文の概要: $\boldsymbol{f}$-OPD: Stabilizing Long-Horizon On-Policy Distillation with Freshness-Aware Control
- arxiv url: http://arxiv.org/abs/2605.17862v1
- Date: Mon, 18 May 2026 05:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.817896
- Title: $\boldsymbol{f}$-OPD: Stabilizing Long-Horizon On-Policy Distillation with Freshness-Aware Control
- Title(参考訳): $\boldsymbol{f}$-OPD: フレッシュネス・アウェア制御による長期オンポリシングの安定化
- Authors: Xianwei Chen, Shimin Zhang, Jibin Wu,
- Abstract要約: システム効率には非同期実行が必要ですが、理想のオン政治目標から構造的に逸脱します。
本稿では,古いサンプルの影響を適応的に制御し,政策ドリフトを制約する新しいフレームワークであるf-OPDを提案する。
以上の結果から,OPDにおけるパフォーマンス効率トレードオフを実現するための最初のレシピが確立された。
- 参考スコア(独自算出の注目度): 10.758424473099055
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scaling on-policy distillation (OPD) for large language models (LLMs) confronts a fundamental tension: asynchronous execution is necessary for system efficiency, but structurally deviates from the ideal on-policy objective. To address this challenge, we theoretically decompose the objective discrepancy into rollout drift and supervision drift, capturing staleness in student rollout and teacher context, respectively. Building on this, we introduce a sample-level freshness score that quantifies the reliability of a buffered sample with respect to the on-policy objective. Guided by this signal, we further propose f-OPD, a novel framework that adaptively regulates stale-sample influence and constrains policy drift accumulated under asynchronous training. Across reasoning, tool-use, and coding-agent tasks of increasing interaction horizon, f-OPD consistently achieves task performance comparable to synchronous optimization while largely retaining the throughput advantages of asynchronous execution. Our results establish the first recipe for achieving a performance-efficiency trade-off in OPD, paving the way for long-horizon agentic post-training at scale.
- Abstract(参考訳): 大規模言語モデル (LLM) に対するオンライン蒸留 (OPD) のスケーリングは、システム効率に非同期実行が必要であるが、理想のオンライン目的から構造的に逸脱する、という根本的な緊張に直面している。
この課題に対処するため, 学生のロールアウトと教師のコンテキストにおいて, 客観的不一致を, ロールアウトドリフトと監督ドリフトに分解し, 安定度を捉えた。
そこで我々は, バッファリングされたサンプルの信頼性を, オンラインの目的に対して定量的に評価する, サンプルレベルの鮮度スコアを導入する。
この信号で導かれたf-OPDは,非同期学習で蓄積した古いサンプルの影響と制約のドリフトを適応的に制御する新しいフレームワークである。
相互作用の地平線を拡大する推論、ツール使用、コーディングエージェントタスク全体にわたって、f-OPDは非同期実行のスループットの利点をほとんど維持しつつ、同期最適化に匹敵するタスクパフォーマンスを一貫して達成します。
以上の結果から,OPDにおけるパフォーマンス効率トレードオフを実現するための最初のレシピが確立された。
関連論文リスト
- DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models [55.01951088768769]
DiffusionOPDはオンライン政策蒸留(OPD)に基づく拡散モデルのための新しいマルチタスクトレーニングパラダイムである
本研究では,DiffusionOPDがトレーニング効率と最終性能において,マルチリワードRLとカスケードRLのベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-14T16:49:09Z) - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization [15.212942734663514]
CrossQは,更新データ(UTD)比が1。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
論文 参考訳(メタデータ) (2025-02-11T12:55:32Z) - Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor [3.932152385564876]
本稿では,Quadrotor用の頑健な安定化コントローラを開発するためのカリキュラム学習手法を紹介する。
学習の目的は、ランダムな初期条件から望ましい位置を達成することである。
過渡的かつ定常的な性能仕様を取り入れた新たな付加的報酬関数を提案する。
論文 参考訳(メタデータ) (2025-01-30T17:05:32Z) - Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。
OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。
本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T14:28:18Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。