論文の概要: Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.17512v1
- Date: Wed, 23 Jul 2025 13:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.020911
- Title: Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning
- Title(参考訳): 1つのドメインが他のドメインを助けることができるか? 強化学習によるマルチドメイン推論に関するデータ中心研究
- Authors: Yu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu,
- Abstract要約: 本稿では,RLVRフレームワーク内でのマルチドメイン推論を体系的に検討する。
数学的推論、コード生成、論理パズル解という3つの主要な領域に注目します。
私たちの結果は、ドメイン間相互作用を管理するダイナミクスに関する重要な洞察を与えます。
- 参考スコア(独自算出の注目度): 32.665418383317224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful paradigm for enhancing the reasoning capabilities of LLMs. Existing research has predominantly concentrated on isolated reasoning domains such as mathematical problem-solving, coding tasks, or logical reasoning. However, real world reasoning scenarios inherently demand an integrated application of multiple cognitive skills. Despite this, the interplay among these reasoning skills under reinforcement learning remains poorly understood. To bridge this gap, we present a systematic investigation of multi-domain reasoning within the RLVR framework, explicitly focusing on three primary domains: mathematical reasoning, code generation, and logical puzzle solving. We conduct a comprehensive study comprising four key components: (1) Leveraging the GRPO algorithm and the Qwen-2.5-7B model family, our study thoroughly evaluates the models' in-domain improvements and cross-domain generalization capabilities when trained on single-domain datasets. (2) Additionally, we examine the intricate interactions including mutual enhancements and conflicts that emerge during combined cross-domain training. (3) To further understand the influence of SFT on RL, we also analyze and compare performance differences between base and instruct models under identical RL configurations. (4) Furthermore, we delve into critical RL training details, systematically exploring the impacts of curriculum learning strategies, variations in reward design, and language-specific factors. Through extensive experiments, our results offer significant insights into the dynamics governing domain interactions, revealing key factors influencing both specialized and generalizable reasoning performance. These findings provide valuable guidance for optimizing RL methodologies to foster comprehensive, multi-domain reasoning capabilities in LLMs.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、LLMの推論能力を高めるための強力なパラダイムとして登場した。
既存の研究は主に、数学的問題解決、コーディングタスク、論理的推論といった独立した推論領域に集中している。
しかし、現実の推論シナリオは本質的に複数の認知スキルの統合的な応用を必要とする。
それにもかかわらず、強化学習におけるこれらの推論スキル間の相互作用は、いまだに理解されていない。
このギャップを埋めるために、我々はRLVRフレームワーク内のマルチドメイン推論を体系的に研究し、数学的推論、コード生成、論理パズル解という3つの主要な領域に焦点を当てた。
1) GRPOアルゴリズムとQwen-2.5-7Bモデルファミリを応用した総合的な研究を行い、単一ドメインデータセットでトレーニングした場合のモデルのドメイン内改良とドメイン間一般化能力を徹底的に評価する。
2) クロスドメイン学習における相互強化や対立を含む複雑な相互作用についても検討した。
3) SFT が RL に与える影響をさらに理解するために, ベースモデルとインストラクションモデルのパフォーマンス差を同一の RL 構成で解析・比較する。
さらに,カリキュラム学習戦略,報酬設計のバリエーション,言語特化要因の影響を体系的に調査し,重要なRL学習の詳細を明らかにする。
広範にわたる実験を通じて,本研究はドメイン間相互作用を制御し,専門的および一般化可能な推論性能に影響を及ぼす重要な要因を明らかにする。
これらの知見は, LLMの総合的多領域推論能力を高めるために, RL法を最適化するための貴重なガイダンスを提供する。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks [10.074110713679739]
モバイルネットワークにおけるルート原因分析(RCA)は、解釈可能性、ドメインの専門知識、因果推論を必要とするため、依然として困難な課題である。
RCAにLarge Language Models(LLM)を利用する軽量フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-29T16:21:42Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Large Language Model Enhanced Knowledge Representation Learning: A Survey [15.602891714371342]
知識表現学習(KRL)は、知識グラフから下流タスクへの記号的知識の適用を可能にするために重要である。
この研究は、これらの進化する領域における新たな研究方向を同時に特定しながら、下流のタスクの広範な概要を提供する。
論文 参考訳(メタデータ) (2024-07-01T03:37:35Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy [38.86867078596718]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Structure in Deep Reinforcement Learning: A Survey and Open Problems [22.77618616444693]
関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。
しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクスによって特徴づけられるが、依然として限られている。
この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如に起因している。
論文 参考訳(メタデータ) (2023-06-28T08:48:40Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。