論文の概要: Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.25443v1
- Date: Mon, 25 May 2026 05:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.332469
- Title: Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models
- Title(参考訳): 多様性の調和:大規模推論モデルのためのマルチドメインコントラストポリシー最適化
- Authors: Zongji Yu, Wenshui Luo, Yiliu Sun, Hao Fang, Runmin Cong, Chaochao Lu, Chen Gong,
- Abstract要約: 後学習は大規模推論モデル(LRM)の推論能力を大幅に向上させた
マルチドメイン設定におけるGRPOスタイルのRLメソッドは、ポリシー最適化に固有の干渉があるため、すべてのドメインで一貫した改善を達成できないことが多い。
マルチドメインコントラストポリシー最適化(MCPO)を提案し、ロールアウト間の構造的関係を分析し、ドメイン間の知識共有を促進する。
- 参考スコア(独自算出の注目度): 38.65301275836433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training has significantly enhanced the reasoning capability of Large Reasoning Models (LRMs), especially with Reinforcement Learning (RL) like Group Relative Policy Optimization (GRPO). However, GRPO-style RL methods in multi-domain settings often fail to achieve consistent improvements across all domains due to inherent interference in policy optimization. Prior studies on multi-domain RL primarily focus on alleviating cross-domain interference, while often neglecting the pivotal role of knowledge sharing, which we argue is the key to transforming cross-domain interactions from harmful competition into beneficial transfer. To address this limitation, we propose Multi-domain Contrastive Policy Optimization (MCPO), which analyzes the structural relationships among rollouts and promotes cross-domain knowledge sharing and in-domain knowledge consolidation in a contrastive manner. Specifically, for a given prompt, MCPO identifies transferable reasoning trajectories from other domains as positive examples, while treating incorrect rollouts as negative ones. It then encourages consistent representations for positive pairs and pushes negative pairs apart, thereby facilitating knowledge transfer and reducing interference. Moreover, MCPO aligns intra-domain correct rollouts to build a consolidated representation space. In this way, MCPO contrastively learns a harmonious representation space that can accommodate diverse multi-domain knowledge. Empirical results show that MCPO improves the reasoning capabilities of LRMs across multiple domains and even outperforms single-domain training in some cases. Code is available at https://github.com/Maricalce/MCPO.
- Abstract(参考訳): ポストトレーニングは、特にグループ相対政策最適化(GRPO)のような強化学習(RL)において、LRM(Large Reasoning Models)の推論能力を大幅に向上させた。
しかし、マルチドメイン設定におけるGRPOスタイルのRLメソッドは、ポリシー最適化に固有の干渉があるため、すべてのドメインで一貫した改善を達成できないことが多い。
マルチドメインRLに関する先行研究は、主にドメイン間の干渉を軽減することに焦点を当て、知識共有の重要な役割を無視することも多いが、これはドメイン間の相互作用を有害な競合から有益な移行へと転換する鍵である、と我々は主張する。
この制限に対処するため,マルチドメインコントラスト政策最適化(MCPO)を提案する。これはロールアウト間の構造的関係を分析し,ドメイン間の知識共有とドメイン内知識の統合を対照的に促進する。
具体的には、特定のプロンプトに対して、MCPOは他のドメインからの移動可能な推論軌跡を正の例とし、不正なロールアウトを負の例として扱う。
その後、正の対に対する一貫した表現を奨励し、負の対を分離し、知識の伝達と干渉の低減を容易にする。
さらに、MCPOはドメイン内の正しいロールアウトを調整して、統合された表現空間を構築する。
このようにして、MCPOは多様なマルチドメイン知識に対応可能な調和表現空間を対照的に学習する。
実験の結果、MCPOは複数のドメインにまたがるLEMの推論能力を改善し、場合によっては単一ドメインのトレーニングよりも優れていた。
コードはhttps://github.com/Maricalce/MCPO.comで入手できる。
関連論文リスト
- FeDecider: An LLM-Based Framework for Federated Cross-Domain Recommendation [75.50721642765994]
大規模言語モデル(LLM)ベースのレコメンデーションモデルは、素晴らしいパフォーマンスを示している。
We propose a LLM-based framework for Federated cross- domain recommendation, FeDecider。
多様なデータセットにわたる大規模な実験により、提案したFeDeciderの有効性が検証された。
論文 参考訳(メタデータ) (2026-02-17T21:42:28Z) - LLM-EDT: Large Language Model Enhanced Cross-domain Sequential Recommendation with Dual-phase Training [53.539682966282534]
クロスドメインシーケンスレコメンデーション (CDSR) は、様々なドメインからの情報を取り入れることで、ユーザとイテムのインタラクションを強化するために提案されている。
現在の進歩にもかかわらず、不均衡問題と移行問題はCDSRのさらなる発展を妨げる。
デュアルフェーズトレーニング(LLM-EDT)によるLLMの拡張型クロスドメインシーケンスレコメンデーションを提案する。
論文 参考訳(メタデータ) (2025-11-25T05:18:04Z) - MARCO: A Cooperative Knowledge Transfer Framework for Personalized Cross-domain Recommendations [23.945049006150555]
MARCOはマルチエージェント強化学習ベースのクロスドメインレコメンデーションフレームワークである。
協調的なマルチエージェント強化学習を活用し、各エージェントは個々のソースドメインからのコントリビューションを推定する。
4つのベンチマークデータセットに対する実験は、最先端の手法よりもMARCOの方が優れた性能を示している。
論文 参考訳(メタデータ) (2025-10-06T05:49:47Z) - CDC: Causal Domain Clustering for Multi-Domain Recommendation [32.945861240561]
マルチドメインレコメンデーションは、ドメイン全般の知識を活用して、複数のドメインにわたるレコメンデーションを改善する。
既存のドメイングループ化メソッドはビジネスロジックやデータ類似性に基づいており、最適なグループ化に必要な真の転送関係をキャプチャできないことが多い。
本稿では,効果的にドメインをクラスタ化するためのCausal Domain Clustering(CDC)を提案する。
CDCは、パブリックデータセットや工業環境で50以上のドメインのパフォーマンスを大幅に向上させ、オンラインeCPMの4.9%の増加を実現している。
論文 参考訳(メタデータ) (2025-07-09T14:15:47Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Cross-Domain Policy Transfer by Representation Alignment via Multi-Domain Behavioral Cloning [13.674493608667627]
本稿では、ドメイン間の共有潜在表現と、その上に共通の抽象ポリシーを学習する、ドメイン間ポリシー転送のためのシンプルなアプローチを提案する。
提案手法は,プロキシタスクの不整合軌道上でのマルチドメイン動作のクローン化と,ドメイン間のアライメントを促進するために,最大平均不整合(MMD)を正規化用語として利用する。
論文 参考訳(メタデータ) (2024-07-24T00:13:00Z) - Role Prompting Guided Domain Adaptation with General Capability Preserve
for Large Language Models [55.51408151807268]
特定のドメインに合わせると、LLM(Large Language Models)は破滅的な忘れを経験する傾向がある。
同時に複数のドメインのための汎用モデルを構築することで、全体的なパフォーマンスが低下することが多い。
RolE Prompting Guided Multi-Domain Adaptation (REGA) 戦略を提案する。
論文 参考訳(メタデータ) (2024-03-05T08:22:41Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。