論文の概要: From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2512.02580v1
- Date: Tue, 02 Dec 2025 09:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.811275
- Title: From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks
- Title(参考訳): 模倣から差別へ:クロスドメイン推論タスクの一般化的アドバンテージメカニズムに向けて
- Authors: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang,
- Abstract要約: 本稿では,利点信号に基づく適応的なカリキュラム機構として,*CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization)を提案する。
提案したメカニズムは、正のみの利点サンプルによる模倣学習をブートストラップし、堅牢な基礎を確立する。
我々の手法は、数学的推論タスクの安定かつ重要な改善を一貫して達成する。
- 参考スコア(独自算出の注目度): 21.71569299337131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.
- Abstract(参考訳): 強化学習は、大規模言語モデルの訓練後のパラダイムとして現れ、推論能力を高めている。
このようなアプローチでは、各サンプルの利点値を計算し、期待よりも良いか悪いパフォーマンスを反映し、トレーニング用の正信号と負信号の両方を出力する。
しかし、既存の方法、特に初期段階からの2つの信号の無差別混合は、曖昧なガイダンスと限られた利得につながる可能性がある。
この問題に対処するため,利点信号に基づく適応的なカリキュラム機構である*CAPO*(**C**urriculum **A**dvantage **P*olicy **O**ptimization)を提案する。
提案機構は, 擬似学習を正にのみ有利なサンプルでブートストラップし, 強靭な基礎を確立するとともに, 識別能力を育むために負の信号を導入し, 複雑なシナリオをまたいだ一般化を改善する。
GRPO, PPO, RLOO, Reinforce++などの多種多様な最適化手法と相まって, 数学的推論タスクの安定かつ重要な改善を一貫して達成し, マルチモーダルなグラフィカルユーザインタフェース(GUI)推論シナリオを効果的に一般化し, 汎用的で堅牢な最適化フレームワークとして確立する。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment [1.8552770604791606]
相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。
ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。
3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
論文 参考訳(メタデータ) (2025-10-06T18:53:23Z) - COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。