論文の概要: Reinforce LLM Reasoning through Multi-Agent Reflection
- arxiv url: http://arxiv.org/abs/2506.08379v1
- Date: Tue, 10 Jun 2025 02:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.257602
- Title: Reinforce LLM Reasoning through Multi-Agent Reflection
- Title(参考訳): マルチエージェント反射による強化LDM共振
- Authors: Yurun Yuan, Tengyang Xie,
- Abstract要約: DPSDPは,自己生成データを直接選好学習することで,アクタクリティカルなLLMシステムを反復的に洗練する強化学習アルゴリズムである。
理論的には、DPSDPはトレーニング分布内の任意のポリシーのパフォーマンスと一致させることができる。
例えば、ベンチマークMATH 500では、5つの改良ステップ以上の多数投票がミニストラーモデルで第1回投票の精度を58.2%から63.2%に向上させた。
- 参考スコア(独自算出の注目度): 8.088795955922656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging more test-time computation has proven to be an effective way to boost the reasoning capabilities of large language models (LLMs). Among various methods, the verify-and-improve paradigm stands out for enabling dynamic solution exploration and feedback incorporation. However, existing approaches often suffer from restricted feedback spaces and lack of coordinated training of different parties, leading to suboptimal performance. To address this, we model this multi-turn refinement process as a Markov Decision Process and introduce DPSDP (Direct Policy Search by Dynamic Programming), a reinforcement learning algorithm that trains an actor-critic LLM system to iteratively refine answers via direct preference learning on self-generated data. Theoretically, DPSDP can match the performance of any policy within the training distribution. Empirically, we instantiate DPSDP with various base models and show improvements on both in- and out-of-distribution benchmarks. For example, on benchmark MATH 500, majority voting over five refinement steps increases first-turn accuracy from 58.2% to 63.2% with Ministral-based models. An ablation study further confirms the benefits of multi-agent collaboration and out-of-distribution generalization.
- Abstract(参考訳): より多くのテスト時間計算を活用することは、大規模言語モデル(LLM)の推論能力を高める効果的な方法であることが証明されている。
様々な手法の中で、動的解探索とフィードバックの組み入れを可能にするための検証と改善のパラダイムが際立っている。
しかし、既存のアプローチは、しばしば制限されたフィードバック空間と、異なるパーティの協調的なトレーニングの欠如に悩まされ、最適以下のパフォーマンスに繋がる。
そこで我々は,このマルチターン改良プロセスをマルコフ決定プロセスとしてモデル化し,自己生成データを直接選好学習することで,アクタークリティカルなLLMシステムを反復的に洗練させる強化学習アルゴリズムであるDPSDP(Direct Policy Search by Dynamic Programming)を導入する。
理論的には、DPSDPはトレーニング分布内の任意のポリシーのパフォーマンスと一致させることができる。
実験的に, DPSDPを様々なベースモデルでインスタンス化し, イン・オブ・アウト・ディストリビューション・ベンチマークの改善を示す。
例えば、ベンチマークMATH 500では、5つの改良ステップ以上の多数投票がミニストラーモデルで第1回投票の精度を58.2%から63.2%に向上させた。
アブレーション研究は、マルチエージェントコラボレーションとアウト・オブ・ディストリビューションの一般化の利点をさらに確認する。
関連論文リスト
- DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs [33.07594285100664]
静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。
我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。
論文 参考訳(メタデータ) (2020-10-18T00:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。