論文の概要: ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.09501v1
- Date: Wed, 12 Mar 2025 16:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:53.006097
- Title: ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning
- Title(参考訳): ReMA:マルチエージェント強化学習によるLLMのためのメタ思考の学習
- Authors: Ziyu Wan, Yunxiang Li, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen,
- Abstract要約: Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 54.787341008881036
- License:
- Abstract: Recent research on Reasoning of Large Language Models (LLMs) has sought to further enhance their performance by integrating meta-thinking -- enabling models to monitor, evaluate, and control their reasoning processes for more adaptive and effective problem-solving. However, current single-agent work lacks a specialized design for acquiring meta-thinking, resulting in low efficacy. To address this challenge, we introduce Reinforced Meta-thinking Agents (ReMA), a novel framework that leverages Multi-Agent Reinforcement Learning (MARL) to elicit meta-thinking behaviors, encouraging LLMs to think about thinking. ReMA decouples the reasoning process into two hierarchical agents: a high-level meta-thinking agent responsible for generating strategic oversight and plans, and a low-level reasoning agent for detailed executions. Through iterative reinforcement learning with aligned objectives, these agents explore and learn collaboration, leading to improved generalization and robustness. Experimental results demonstrate that ReMA outperforms single-agent RL baselines on complex reasoning tasks, including competitive-level mathematical benchmarks and LLM-as-a-Judge benchmarks. Comprehensive ablation studies further illustrate the evolving dynamics of each distinct agent, providing valuable insights into how the meta-thinking reasoning process enhances the reasoning capabilities of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論に関する最近の研究は、メタ思考を統合して、より適応的で効果的な問題解決のための推論プロセスの監視、評価、制御を可能にすることで、そのパフォーマンスをさらに向上させようとしている。
しかし、現在のシングルエージェントの作業はメタ思考を取得するための特別な設計を欠いているため、効果は低い。
この課題に対処するために,マルチエージェント強化学習(MARL)を活用した新しいフレームワークReinforced Meta-thinking Agents (ReMA)を導入する。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
協調的な目的を持った反復的強化学習を通じて、これらのエージェントは協調を探求し、学習し、一般化と堅牢性を向上させる。
実験の結果、ReMAは競合レベルの数学ベンチマークやLLM-as-a-Judgeベンチマークを含む複雑な推論タスクにおいて、単一エージェントのRLベースラインよりも優れていた。
包括的アブレーション研究は、それぞれの異なるエージェントの進化のダイナミクスをさらに説明し、メタ思考推論プロセスがLSMの推論能力をいかに促進するかについての貴重な洞察を提供する。
関連論文リスト
- Approximating Human Strategic Reasoning with LLM-Enhanced Recursive Reasoners Leveraging Multi-agent Hypergames [3.5083201638203154]
我々は、洗練された推論者に適したロールベースのマルチエージェント戦略相互作用フレームワークを実装した。
我々は,最新のLCMの推論能力を評価するために,ワンショット2プレーヤ美容コンテストを用いた。
実験の結果,人間行動の近似と最適解への到達の両面で,人工推論がベースラインモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-11T10:37:20Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection agents [26.645038049346255]
マルチパス推論(Multi-Path Reasoning:RR-MP)フレームワークを用いたリアクティブおよびリフレクションエージェントを提案する。
提案手法は,マルチパス推論機構を用いて科学的推論精度を向上させる。
道徳的シナリオ,大学レベルの物理,数学に関わる課題について,ゼロショットと少数ショットの評価を行った。
論文 参考訳(メタデータ) (2024-12-31T13:11:20Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models [4.9108308035618515]
マルチエージェント強化学習(MARL)法はマルチエージェントシステムの非定常性に対処する。
ここでは、大きな言語モデル(LLM)を活用して、これらの課題に対処できる自律エージェントを作成します。
私たちのエージェントである仮説的マインドスは、認知にインスパイアされたアーキテクチャで構成されており、知覚、記憶、階層的な2段階の抽象化計画のためのモジュラーコンポーネントを備えています。
論文 参考訳(メタデータ) (2024-07-09T17:57:15Z) - MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning [3.651416979200174]
MMCTAgentは、複雑な視覚的推論タスクにおける現在のMLLM固有の制限に対処するために設計された、新しい批判的思考エージェントフレームワークである。
人間の認知プロセスや批判的思考にインスパイアされたMCCTAgentは、複数のモーダル情報を反復的に分析し、クエリを分解し、戦略を計画し、その推論を動的に進化させる。
論文 参考訳(メタデータ) (2024-05-28T16:55:41Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。