論文の概要: Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs with Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.03817v1
- Date: Thu, 04 Sep 2025 02:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.019855
- Title: Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs with Multi-agent Reinforcement Learning
- Title(参考訳): 検討への学習:マルチエージェント強化学習によるエージェントLLMのためのメタ政治協力
- Authors: Wei Yang, Jesse Thomason,
- Abstract要約: エージェントは高レベルなメタ認知行動を通じて分散政策を学習する。
我々は,新しい強化学習アルゴリズムであるSoftRankPOを開発した。
- 参考スコア(独自算出の注目度): 13.9097452260769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems of large language models (LLMs) show promise for complex reasoning, but their effectiveness is often limited by fixed collaboration protocols. These frameworks typically focus on macro-level orchestration while overlooking agents' internal deliberative capabilities. This critical meta-cognitive blindspot treats agents as passive executors unable to adapt their strategy based on internal cognitive states like uncertainty or confidence. We introduce the Meta-Policy Deliberation Framework (MPDF), where agents learn a decentralized policy over a set of high-level meta-cognitive actions: Persist, Refine, and Concede. To overcome the instability of traditional policy gradients in this setting, we develop SoftRankPO, a novel reinforcement learning algorithm. SoftRankPO stabilizes training by shaping advantages based on the rank of rewards mapped through smooth normal quantiles, making the learning process robust to reward variance. Experiments show that MPDF with SoftRankPO achieves a a 4-5% absolute gain in average accuracy across five mathematical and general reasoning benchmarks compared to six state-of-the-art heuristic and learning-based multi-agent reasoning algorithms. Our work presents a paradigm for learning adaptive, meta-cognitive policies for multi-agent LLM systems, shifting the focus from designing fixed protocols to learning dynamic, deliberative strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)のマルチエージェントシステムは複雑な推論を約束するが、その有効性は固定された協調プロトコルによって制限されることが多い。
これらのフレームワークは、エージェントの内部の熟考能力を見下ろしながら、マクロレベルのオーケストレーションに重点を置いている。
この批判的なメタ認知的盲点は、エージェントを不確実性や自信といった内的認知状態に基づいて、彼らの戦略を適応できない受動的実行者として扱う。
エージェントは、高レベルなメタ認知行動(Persist、Refine、Concede)を通じて分散化されたポリシーを学ぶ。
この設定における従来の政策勾配の不安定性を克服するため、新しい強化学習アルゴリズムであるSoftRankPOを開発した。
SoftRankPOは、スムーズな通常の量子化を通してマッピングされた報酬のランクに基づいて、利点を形作ることでトレーニングを安定化する。
実験により、SoftRankPOを用いたMDPは、最新の6つのヒューリスティックおよび学習ベースのマルチエージェント推論アルゴリズムと比較して、5つの数学的および一般的な推論ベンチマークの平均精度が4-5%向上していることが示されている。
本研究は,多エージェントLLMシステムに対する適応的メタ認知ポリシーの学習パラダイムを提示し,固定プロトコルの設計から動的で熟考的な戦略の学習へと焦点を移す。
関連論文リスト
- Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。