Fugu-MT 論文翻訳(概要): Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy

論文の概要: Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy

arxiv url: http://arxiv.org/abs/2503.10049v1
Date: Thu, 13 Mar 2025 05:02:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.530303
Title: Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy
Title（参考訳）: LLMに基づくプランナーとグラフベースのポリシーによる強化学習によるマルチエージェントシステムの強化
Authors: Ziqi Jia, Junjie Li, Xiaoyang Qu, Jianzong Wang,
Abstract要約: Graph Collaboration MARL (LGC-MARL)は、Large Language Models (LLM)とMulti-Agent Reinforcement Learning (MARL)を効率的に組み合わせたフレームワークである。 LGC-MARLは複雑なタスクを実行可能なサブタスクに分解し、グラフベースの調整によって複数のエージェント間の効率的な協調を実現する。 AI2-THORシミュレーションプラットフォームの実験結果から,LGC-MARLの性能とスケーラビリティが向上した。
参考スコア（独自算出の注目度）: 31.041340552853004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent systems (MAS) have shown great potential in executing complex tasks, but coordination and safety remain significant challenges. Multi-Agent Reinforcement Learning (MARL) offers a promising framework for agent collaboration, but it faces difficulties in handling complex tasks and designing reward functions. The introduction of Large Language Models (LLMs) has brought stronger reasoning and cognitive abilities to MAS, but existing LLM-based systems struggle to respond quickly and accurately in dynamic environments. To address these challenges, we propose LLM-based Graph Collaboration MARL (LGC-MARL), a framework that efficiently combines LLMs and MARL. This framework decomposes complex tasks into executable subtasks and achieves efficient collaboration among multiple agents through graph-based coordination. Specifically, LGC-MARL consists of two main components: an LLM planner and a graph-based collaboration meta policy. The LLM planner transforms complex task instructions into a series of executable subtasks, evaluates the rationality of these subtasks using a critic model, and generates an action dependency graph. The graph-based collaboration meta policy facilitates communication and collaboration among agents based on the action dependency graph, and adapts to new task environments through meta-learning. Experimental results on the AI2-THOR simulation platform demonstrate the superior performance and scalability of LGC-MARL in completing various complex tasks.
Abstract（参考訳）: マルチエージェントシステム(MAS)は複雑なタスクの実行において大きな可能性を示しているが、協調と安全性は依然として重要な課題である。 MARL(Multi-Agent Reinforcement Learning)はエージェントコラボレーションのための有望なフレームワークを提供するが、複雑なタスクの処理や報酬関数の設計に困難に直面している。 LLM(Large Language Models)の導入は、MASに対してより強力な推論と認知能力をもたらしたが、既存のLLMベースのシステムは、動的環境において迅速かつ正確に応答するのに苦労している。これらの課題に対処するために, LLM と MARL を効率的に組み合わせたフレームワークである LLM ベースの Graph Collaboration MARL (LGC-MARL) を提案する。このフレームワークは複雑なタスクを実行可能なサブタスクに分解し、グラフベースの調整を通じて複数のエージェント間の効率的な協調を実現する。具体的には、LGC-MARLはLLMプランナーとグラフベースのコラボレーションメタポリシーの2つの主要コンポーネントから構成される。 LLMプランナーは、複雑なタスク命令を一連の実行可能なサブタスクに変換し、批判モデルを用いてこれらのサブタスクの合理性を評価し、アクション依存グラフを生成する。グラフベースのコラボレーションメタポリシーは、アクション依存グラフに基づくエージェント間のコミュニケーションとコラボレーションを促進し、メタ学習を通じて新しいタスク環境に適応する。 AI2-THORシミュレーションプラットフォームの実験結果から,LGC-MARLの性能とスケーラビリティが向上し,複雑なタスクが完了した。

関連論文リスト

LLM Collaboration With Multi-Agent Reinforcement Learning [13.900227188164209]
我々は,MARL(Multi-Agent Reinforcement Learning)問題を解決するために,マルチエージェント・マルチターンアルゴリズム,Multi-Agent Group Relative Policy Optimization (MAGRPO)を開発した。筆者らは,MAGRPOを用いた微調整MASにおいて,効率的な協調による高品質な応答を効率的に生成できることを実証した。
論文参考訳（メタデータ） (2025-08-06T17:18:25Z)
Advancing Compositional LLM Reasoning with Structured Task Relations in Interactive Multimodal Communications [42.945657927971]
本稿では,無線ネットワーク上での単一合成LLMを用いて,多様なIMAを実現する新しいパラダイムを提案する。最初の課題に取り組むために、我々はILMを案内する新しい方法であるContextLoRAを提案し、IMA間のリッチな構造化コンテキストを学習する。 3つのベンチマークの実験は、提案されたContextLoRAとContextGearの優位性を示している。
論文参考訳（メタデータ） (2025-07-28T09:33:12Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文参考訳（メタデータ） (2025-05-29T07:24:37Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
When One LLM Drools, Multi-LLM Collaboration Rules [98.71562711695991]
私たちは、データ、スキル、人々の幅広い多様性を表現するために、マルチLLMコラボレーションを議論しています。既存のマルチLLM協調手法を,アクセスレベルと情報交換レベルに基づいて階層構造に整理する。コンポジションインテリジェンスとコラボレーティブAI開発への不可欠な道として,マルチLLMコラボレーションを構想する。
論文参考訳（メタデータ） (2025-02-06T21:13:44Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
MaCTG: Multi-Agent Collaborative Thought Graph for Automatic Programming [10.461509044478278]
MaCTG (MultiAgent Collaborative Thought Graph) は動的グラフ構造を用いる新しいマルチエージェントフレームワークである。プログラム要求に基づいてエージェントロールを自律的に割り当て、タスクの分散を動的に洗練し、プロジェクトレベルのコードを体系的に検証し統合する。 MaCTGは既存のマルチエージェントフレームワークと比較して運用コストを89.09%削減した。
論文参考訳（メタデータ） (2024-10-25T01:52:15Z)
Optimizing Collaboration of LLM based Agents for Finite Element Analysis [1.5039745292757671]
本稿では,Large Language Models (LLM) 内の複数のエージェント間の相互作用について,プログラミングおよびコーディングタスクの文脈で検討する。我々はAutoGenフレームワークを利用してエージェント間の通信を容易にし、各セットアップの40のランダムランからの成功率に基づいて異なる構成を評価する。
論文参考訳（メタデータ） (2024-08-23T23:11:08Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model [15.558269067931374]
オープンなエンボディタスクのための階層的知識蒸留フレームワークであるSTEVE-2を提案する。蒸留後、実施エージェントは専門的なガイダンスなしで複雑なオープンエンドタスクを完了することができる。
論文参考訳（メタデータ） (2024-04-06T12:51:00Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。 ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。以上の結果から,ADaPTは強いベースラインを確立した。
論文参考訳（メタデータ） (2023-11-08T17:59:15Z)
Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。 MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-09-30T00:10:14Z)
Self-collaboration Code Generation via ChatGPT [35.88318116340547]
大規模言語モデル(LLM)はコード生成能力に優れていますが、複雑なタスクに苦労しています。本稿では,ChatGPT で実証した LLM を用いたコード生成のための自己協調フレームワークを提案する。この仮想チームを効果的に組織化し、管理するために、ソフトウェア開発方法論をフレームワークに組み入れます。
論文参考訳（メタデータ） (2023-04-15T16:33:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。