論文の概要: Co-Evolving Policy Distillation
- arxiv url: http://arxiv.org/abs/2604.27083v1
- Date: Wed, 29 Apr 2026 18:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.752451
- Title: Co-Evolving Policy Distillation
- Title(参考訳): 共進化型政策蒸留
- Authors: Naibin Gu, Chenxu Yang, Qingyi Si, Chuanyu Qin, Dingyu Yao, Peng Fu, Zheng Lin, Weiping Wang, Nan Duan, Jiaqi Wang,
- Abstract要約: Co-Evolving Policy Distillation (CoPD)は専門家の並行トレーニングを促進し、各専門家のRLVRトレーニング中にOPDを導入する。
実験では、CoPDがテキスト、画像、ビデオの推論機能のオールインワン統合を実現することを検証する。
- 参考スコア(独自算出の注目度): 56.500154041818746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RLVR and OPD have become standard paradigms for post-training. We provide a unified analysis of these two paradigms in consolidating multiple expert capabilities into a single model, identifying capability loss in different ways: mixed RLVR suffers from inter-capability divergence cost, while the pipeline of first training experts and then performing OPD, though avoiding divergence, fails to fully absorb teacher capabilities due to large behavioral pattern gaps between teacher and student. We propose Co-Evolving Policy Distillation (CoPD), which encourages parallel training of experts and introduces OPD during each expert's ongoing RLVR training rather than after complete expert training, with experts serving as mutual teachers (making OPD bidirectional) to co-evolve. This enables more consistent behavioral patterns among experts while maintaining sufficient complementary knowledge throughout. Experiments validate that CoPD achieves all-in-one integration of text, image, and video reasoning capabilities, significantly outperforming strong baselines such as mixed RLVR and MOPD, and even surpassing domain-specific experts. The model parallel training pattern offered by CoPD may inspire a novel training scaling paradigm.
- Abstract(参考訳): RLVRとOPDはポストトレーニングの標準パラダイムとなっている。
混合RLVRは能力間ばらつきのコストに悩まされ、一方、最初の訓練専門家のパイプラインとOPDの実行は、分岐を避けつつも、教師と生徒の行動パターンの差が大きいため、教師の能力を完全に吸収することができない。
我々は,専門家の同時訓練を奨励し,専門家のRLVRトレーニングにおいて,専門家同士の相互指導(OPD双方向化)を行う専門家が共同開発を行うのではなく,各専門家の継続するRLVRトレーニング中にPDを導入する,共進化型政策蒸留(Co-Evolving Policy Distillation, COPD)を提案する。
これにより、専門家の間でより一貫した行動パターンを可能にし、十分な補完的な知識を維持します。
実験では、CoPDがテキスト、画像、ビデオの推論機能のオールインワン統合を実現し、RLVRとMOPDの混合のような強力なベースラインを著しく上回り、ドメイン固有の専門家を超越している。
CoPDが提供するモデルの並列トレーニングパターンは、新しいトレーニングスケーリングパラダイムを刺激する可能性がある。
関連論文リスト
- Vintix II: Decision Pre-Trained Transformer is a Scalable In-Context Reinforcement Learner [91.12249411043723]
インコンテキスト強化学習は、推論時に新しいタスクを直接取得できるエージェントを訓練するために使用することができる。
DPT(Decision Pre-Trained Transformer)が導入された。
我々はDPTを多様なマルチドメイン環境に拡張し、フローマッチングを自然なトレーニング選択として適用する。
論文 参考訳(メタデータ) (2026-04-06T19:18:12Z) - KARL: Knowledge Agents via Reinforcement Learning [63.627906947205624]
本稿では,強化学習による企業検索エージェントの訓練システムを提案する。
KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。
異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
論文 参考訳(メタデータ) (2026-03-05T14:30:25Z) - Heterogeneous Agent Collaborative Reinforcement Learning [52.99813668995983]
不均一エージェント協調強化学習(HACRL)
本稿では,このパラダイムに基づいて,サンプル利用とエージェント間の知識伝達を最大化するために,原則的なロールアウト共有を可能にする協調RLアルゴリズムであるHACPOを提案する。
多様な異種モデルの組み合わせと推論ベンチマークによる実験により、HACPOはすべてのエージェントを一貫して改善し、GSPOを平均3.3%上回り、ロールアウトコストの半分しか使っていないことが示された。
論文 参考訳(メタデータ) (2026-03-03T05:09:49Z) - Continual Policy Distillation from Distributed Reinforcement Learning Teachers [14.879372764916154]
継続強化学習は、生涯学習エージェントを開発し、多様なタスクにまたがる知識を継続的に獲得することを目的としている。
これは、安定性と塑性のジレンマを効率的に管理し、新しいタスクに迅速に一般化するために事前の経験を活用する必要がある。
本稿では、CRLを2つの独立したプロセスに分離する新しい教師学生フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T02:40:34Z) - More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - Astrea: A MOE-based Visual Understanding Model with Progressive Alignment [10.943104653307294]
マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。
本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:44:52Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
本稿では,マルチタスク学習のための新しい2段階L2Dフレームワークを提案する。
提案手法は2段階のサロゲート損失ファミリーを利用し,Bayes-consistentと$(mathcalG, MathcalR)$-consistentの両方を証明した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Continuous Control With Ensemble Deep Deterministic Policy Gradients [3.3465375629622502]
我々は,OpenAI Gym MuJoCoの継続的制御タスクに対して,ED2(Ensemble Deep Deterministic Policy Gradients)が最先端の結果をもたらす方法を示す。
実用面では、ED2は概念的には単純で、コーディングが容易で、既存の深層強化学習ツールボックス以外の知識を必要としない。
論文 参考訳(メタデータ) (2021-11-30T13:28:13Z) - Knowledge Transfer in Multi-Task Deep Reinforcement Learning for
Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。
KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。
実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文 参考訳(メタデータ) (2020-10-15T03:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。