論文の概要: When Domains Interact: Asymmetric and Order-Sensitive Cross-Domain Effects in Reinforcement Learning for Reasoning
- arxiv url: http://arxiv.org/abs/2602.01365v1
- Date: Sun, 01 Feb 2026 18:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.74384
- Title: When Domains Interact: Asymmetric and Order-Sensitive Cross-Domain Effects in Reinforcement Learning for Reasoning
- Title(参考訳): ドメインが相互作用する場合: 推論のための強化学習における非対称および秩序感性クロスドメインの効果
- Authors: Wang Yang, Shouren Wang, Chaoda Song, Chuang Ma, Xinpeng Li, Nengbo Wang, Kaixiong Zhou, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: グループ相対政策最適化(Group Relative Policy Optimization)は、大規模言語モデルにおける推論能力を改善する手法である。
数学、科学、論理学、パズル推論タスクにまたがるトレーニング順序効果の体系的解析を行った。
- 参考スコア(独自算出の注目度): 31.568562595108062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) has become a key technique for improving reasoning abilities in large language models, yet its behavior under different domain sequencing strategies is poorly understood. In particular, the impact of sequential (one domain at a time) versus mixed-domain (multiple domain at a time) training in GRPO has not been systematically studied. We provide the first systematic analysis of training-order effects across math, science, logic, and puzzle reasoning tasks. We found (1) single-domain generalization is highly asymmetric: training on other domains improves math reasoning by approximately 25\% accuracy, while yielding negligible transfer to logic and puzzle; (2) cross-domain interactions are highly order-dependent: training in the order math$\rightarrow$science achieves 83\% / 41\% accuracy on math / science, while reversing the order to science$\rightarrow$math degrades performance to 77\% / 25\%; (3) no single strategy is universally optimal in multi-domain training: sequential training favors math (up to 84\%), mixed training favors science and logic, and poor ordering can incur large performance gaps (from 70\% to 56\%). Overall, our findings demonstrate that GRPO under multi-domain settings exhibits pronounced asymmetry, order sensitivity, and strategy dependence, highlighting the necessity of domain-aware and order-aware training design.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は,大規模言語モデルにおける推論能力向上の鍵となる手法となっているが,ドメインシークエンシング戦略の違いによる振る舞いはよく理解されていない。
特に、GRPOにおける逐次(一度に一つのドメイン)と混合ドメイン(一度に複数のドメイン)のトレーニングの影響は体系的に研究されていない。
数学、科学、論理学、パズル推論タスクにまたがるトレーニング順序効果の体系的解析を行った。
その結果,(1) 単ドメインの一般化は高い非対称性を示し,(1) 他ドメインでの学習は,論理学やパズルへの否定的移行を産みながら,約25 % の精度で数学推論を改善すること,(2) クロスドメインの相互作用は高い順序依存性を持つこと,(2) 数学・科学におけるトレーニングは83 % / 41 % の精度で達成すること,(2) 科学への適応は77 % / 25 % の精度で低下すること,(3) 連続的な学習は,数学と論理学に有利であること,そして、混合的な訓練は、大きなパフォーマンスギャップ(70 % から 56 % まで)を生じること,などが判明した。
以上の結果から,マルチドメイン環境下でのGRPOは,非対称性,秩序感,戦略依存を呈し,ドメイン認識および秩序認識型トレーニング設計の必要性を強調した。
関連論文リスト
- ContextPRM: Leveraging Contextual Coherence for multi-domain Test-Time Scaling [38.779046730647856]
プロセス報酬モデル(PRM)は,テストタイムスケーリング(TTS)を活用して,大規模言語モデル(LLM)の数学的推論能力を高める上で,極めて有効であることを示す。
学習目標をドメイン固有の知識の検証からドメインに依存しない論理フローのモデリングにシフトする。
我々のアプローチは、さまざまなドメインにわたるモデルの一般化能力を高める新しいデータアノテーションとトレーニングフレームワークによって実現されている。
論文 参考訳(メタデータ) (2025-09-29T08:40:46Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - A Closer Look at Smoothness in Domain Adversarial Training [37.205372217498656]
本研究は,スムーズネス向上の定式化がドメイン逆行訓練に及ぼす影響を解析する。
タスク損失(w.r.t.)に関してスムーズな最小値に収束すると、敵の訓練が安定し、目標領域の性能が向上する。
タスク損失とは対照的に,スムーズな最小値w.r.t.逆数損失への収束は,対象領域の準最適一般化につながることを示す。
論文 参考訳(メタデータ) (2022-06-16T14:31:38Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。