論文の概要: Prepare Reasoning Language Models for Multi-Agent Debate with Self-Debate Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.22297v1
- Date: Thu, 29 Jan 2026 20:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.047957
- Title: Prepare Reasoning Language Models for Multi-Agent Debate with Self-Debate Reinforcement Learning
- Title(参考訳): 自己決定強化学習を用いた多言語議論のための事前推論言語モデル
- Authors: Chenxi Liu, Yanshuo Chen, Ruibo Chen, Tianyi Xiong, Tong Zheng, Heng Huang,
- Abstract要約: 自己決定強化学習(Self-Debate Reinforcement Learning, SDRL)は、強力な問題解決能力を持つ単一の大規模言語モデルを備えたトレーニングフレームワークである。
我々は,SDRLが単一モデル推論を同時に強化しつつ,総合的マルチエージェント議論(MAD)性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 49.99694105650486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning abilities of large language models (LLMs) have been substantially improved by reinforcement learning with verifiable rewards (RLVR). At test time, collaborative reasoning through Multi-Agent Debate (MAD) has emerged as a promising approach for enhancing LLM performance. However, current RLVR methods typically train LLMs to solve problems in isolation, without explicitly preparing them to synthesize and benefit from different rationales that arise during debate. In this work, we propose Self-Debate Reinforcement Learning (SDRL), a training framework that equips a single LLM with strong standalone problem-solving ability and the capability to learn from diverse reasoning trajectories in MAD. Given a prompt, SDRL first samples multiple candidate solutions, then constructs a debate context with diverse reasoning paths and generates second-turn responses conditioned on this context. Finally, SDRL jointly optimizes both the initial and debate-conditioned responses, yielding a model that is effective as both a standalone solver and a debate participant. Experiments across multiple base models and reasoning benchmarks show that SDRL improves overall MAD performance while simultaneously strengthening single model reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、検証可能な報酬(RLVR)による強化学習によって大幅に改善されている。
テスト時には,マルチエージェント・ディベート(MAD)による協調推論がLCM性能向上のための有望なアプローチとして出現している。
しかし、現在のRLVR法は、通常、議論中に生じる様々な理性から恩恵を受けるように明示的に準備することなく、単独でLLMを訓練する。
本研究は,MADの多種多様な推論軌道から学習する能力と,単独のLCMに強力なスタンドアロン問題解決能力を備えた学習フレームワークであるSDRL(Self-Debate Reinforcement Learning)を提案する。
プロンプトが与えられた後、SDRLはまず複数の候補解をサンプリングし、様々な推論経路を持つ議論コンテキストを構築し、このコンテキストで条件付けられた第2のターン応答を生成する。
最後に、SDRLは初期と議論条件の両方の応答を共同で最適化し、独立解法と議論参加者の両方に有効であるモデルを生成する。
複数のベースモデルと推論ベンチマークによる実験により、SDRLは単一のモデル推論を同時に強化しながら、全体的なMAD性能を改善することが示された。
関連論文リスト
- Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning [28.92744927199283]
ReVisual-R1は、MathVerse、MathVision、WeMath、LogicVista、DynaMath、AIME2024、AIME2025といった挑戦的なベンチマークにおいて、オープンソースの7B MLLMの間で新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:51:08Z) - SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [45.28220409043598]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - Hybrid Latent Reasoning via Reinforcement Learning [50.6763762323985]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning [26.736078756799635]
新しいポストトレーニングパラダイムMAPoRL(強化学習を用いた協調LLMのためのマルチエージェントポストトレーニング)を導入する。
MAPoRLでは、複数のLLMが独立して独自の応答を生成し、最終回答を協調的に改善するためのマルチターンディスカッションを行う。
MAPoRL検証器は、回答の正しさを検証するスコアを割り当てることで、回答と議論の両方を評価する。
スコアはコトレーニング報酬として機能し、マルチエージェントRLによって最大化される。
論文 参考訳(メタデータ) (2025-02-25T18:33:48Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。