論文の概要: OPTAGENT: Optimizing Multi-Agent LLM Interactions Through Verbal Reinforcement Learning for Enhanced Reasoning
- arxiv url: http://arxiv.org/abs/2510.18032v1
- Date: Mon, 20 Oct 2025 19:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.529482
- Title: OPTAGENT: Optimizing Multi-Agent LLM Interactions Through Verbal Reinforcement Learning for Enhanced Reasoning
- Title(参考訳): OPTAGENT: 強化推論のための言語強化学習によるマルチエージェントLDMインタラクションの最適化
- Authors: Zhenyu Bi, Meng Lu, Yang Li, Swastik Roy, Weijie Guan, Morteza Ziyadi, Xuan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、数学的および科学的タスクにおいて顕著な推論能力を示している。
複雑な推論を強化するため、LLMエージェントの集合的知性を活用するためにマルチエージェントシステムが提案されている。
複数エージェントの協調構造を動的に構築・洗練する多エージェント言語強化学習アルゴリズムである$ours$を提案する。
- 参考スコア(独自算出の注目度): 14.105640933123325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable reasoning capabilities in mathematical and scientific tasks. To enhance complex reasoning, multi-agent systems have been proposed to harness the collective intelligence of LLM agents. However, existing collaboration structures are either predefined or rely on majority voting or round-table debates, which can suppress correct but less dominant agent contributions. Recent approaches model multi-agent systems as graph networks but optimize purely for agent performance, neglecting the quality of interactions. We hypothesize that effective agent communication is crucial for multi-agent reasoning and that debating quality plays a significant role. To address this, we propose $\ours$, a multi-agent verbal reinforcement learning algorithm that dynamically constructs and refines multi-agent collaboration structures. Our method defines action spaces and a feedback mechanism that evaluates communication robustness and coherence throughout the debate. The final decision is achieved through a majority vote over all the agents. We assess $\ours$ on various reasoning tasks, including mathematical reasoning, creative writing, scientific reasoning, and numerical sorting. Results demonstrate that our approach significantly outperforms single-agent prompting methods and state-of-the-art multi-agent frameworks on diverse tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的および科学的タスクにおいて顕著な推論能力を示している。
複雑な推論を強化するため、LLMエージェントの集合的知性を活用するためにマルチエージェントシステムが提案されている。
しかし、既存のコラボレーション構造は事前に定義されているか、多数決またはラウンドテーブルの議論に依存しているため、正しいが支配的でないエージェントの貢献を抑えることができる。
近年のアプローチでは、マルチエージェントシステムをグラフネットワークとしてモデル化しているが、エージェントのパフォーマンスを純粋に最適化し、インタラクションの品質を無視している。
我々は,マルチエージェント推論において効果的なエージェントコミュニケーションが不可欠であり,議論品質が重要な役割を担っていると仮定する。
そこで本稿では,複数エージェントの協調構造を動的に構築・洗練する多エージェント言語強化学習アルゴリズムである$\ours$を提案する。
提案手法は,行動空間とコミュニケーションの堅牢性および一貫性を評価するフィードバック機構を議論を通じて定義する。
最終決定は全ての代理人に対する多数決によって下される。
数学的推論、創造的記述、科学的推論、数値ソートなど、さまざまな推論タスクについて$\ours$を評価する。
その結果,本手法は多種多様なタスクにおける単一エージェントのプロンプト手法や最先端のマルチエージェントフレームワークよりも優れていた。
関連論文リスト
- Unleashing Diverse Thinking Modes in LLMs through Multi-Agent Collaboration [5.19759149737193]
本稿では,複数思考モード(DiMo)のための多エージェント協調フレームワークを提案する。
4つの特殊言語モデル(LLM)間の構造化された議論をシミュレートすることで、性能と解釈可能性の両方を向上させる。
6つのベンチマークと統一されたオープンソース設定の下では、DiMoは広く使用されているシングルモデルと議論ベースラインよりも精度を向上し、数学で最大の利益を上げている。
論文 参考訳(メタデータ) (2025-10-18T21:22:36Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Literature Review Of Multi-Agent Debate For Problem-Solving [0.0]
マルチエージェント大規模言語モデル(MA-LLM)は、複雑なタスクに対処するために複数の対話型言語エージェントを活用する、急速に成長する研究分野である。
本稿では,エージェントプロファイル,コミュニケーション構造,意思決定プロセスに関する最新の研究を概説する。
論文 参考訳(メタデータ) (2025-05-29T13:57:00Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Improving Multi-Agent Debate with Sparse Communication Topology [9.041025703879905]
マルチエージェントの議論は、推論や事実性タスクのための大規模言語モデルの品質向上に有効であることが証明されている。
本稿では,マルチエージェントシステムにおける通信接続の効果について検討する。
GPTモデルとMistralモデルを用いた実験により,疎通信トポロジを利用したマルチエージェントの議論が同等あるいは優れた性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-06-17T17:33:09Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs [61.07130026622437]
大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。
心の社会に動機づけられて、我々はReConcileを提案する。
LLMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワーク。
論文 参考訳(メタデータ) (2023-09-22T17:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。