論文の概要: LEED: A Highly Efficient and Scalable LLM-Empowered Expert Demonstrations Framework for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.14680v1
- Date: Thu, 18 Sep 2025 07:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.103684
- Title: LEED: A Highly Efficient and Scalable LLM-Empowered Expert Demonstrations Framework for Multi-Agent Reinforcement Learning
- Title(参考訳): LEED:マルチエージェント強化学習のための高効率でスケーラブルなLLMを利用したエキスパートデモフレームワーク
- Authors: Tianyang Duan, Zongyuan Zhang, Songxiao Guo, Dong Huang, Yuanye Zhao, Zheng Lin, Zihan Fang, Dianxin Luan, Heming Cui, Yong Cui,
- Abstract要約: マルチエージェント強化学習(MARL)は、複雑な環境でのインテリジェントな意思決定を大いに約束する。
LLMを利用した多エージェント強化学習(LEED)のためのエキスパートデモフレームワークを提案する。
LEEDはデモ生成(DG)モジュールとポリシー最適化(PO)モジュールの2つのコンポーネントで構成されている。
実験の結果, LEEDは, 最先端のベースラインに比べて, サンプル効率, 時間効率, 堅牢性に優れていた。
- 参考スコア(独自算出の注目度): 17.656443715585343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) holds substantial promise for intelligent decision-making in complex environments. However, it suffers from a coordination and scalability bottleneck as the number of agents increases. To address these issues, we propose the LLM-empowered expert demonstrations framework for multi-agent reinforcement learning (LEED). LEED consists of two components: a demonstration generation (DG) module and a policy optimization (PO) module. Specifically, the DG module leverages large language models to generate instructions for interacting with the environment, thereby producing high-quality demonstrations. The PO module adopts a decentralized training paradigm, where each agent utilizes the generated demonstrations to construct an expert policy loss, which is then integrated with its own policy loss. This enables each agent to effectively personalize and optimize its local policy based on both expert knowledge and individual experience. Experimental results show that LEED achieves superior sample efficiency, time efficiency, and robust scalability compared to state-of-the-art baselines.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、複雑な環境でのインテリジェントな意思決定に大きく貢献する。
しかし、エージェントの数が増えるにつれて、調整とスケーラビリティのボトルネックに悩まされる。
これらの課題に対処するために,多エージェント強化学習(LEED)のためのLLMを活用したエキスパートデモフレームワークを提案する。
LEEDはデモ生成(DG)モジュールとポリシー最適化(PO)モジュールの2つのコンポーネントで構成されている。
具体的には、DGモジュールは大きな言語モデルを利用して環境と対話するための命令を生成し、高品質なデモを生成する。
POモジュールは分散トレーニングパラダイムを採用し、各エージェントは生成されたデモを利用して、専門家のポリシ損失を構築し、その後、独自のポリシ損失と統合する。
これにより、各エージェントは、専門家の知識と個人の経験の両方に基づいて、そのローカルポリシーを効果的にパーソナライズし、最適化することができる。
実験の結果, LEEDは, 最先端のベースラインに比べて, サンプル効率, 時間効率, 堅牢性に優れていた。
関連論文リスト
- DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。
既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。
推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文 参考訳(メタデータ) (2025-07-31T13:42:14Z) - How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。
本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文 参考訳(メタデータ) (2025-07-11T18:34:07Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories [4.503215272392276]
自律的な研究室における意思決定のためのマルチモーダル強化学習フレームワークMORALを提案する。
我々は、事前訓練されたBLIP-2視覚言語モデルで微調整された画像キャプションを生成し、早期融合戦略により視覚特徴と組み合わせる。
実験の結果,マルチモーダルエージェントはタスク完了率を20%向上することがわかった。
論文 参考訳(メタデータ) (2025-04-04T04:15:52Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Agent Lumos: Unified and Modular Training for Open-Source Language Agents [89.78556964988852]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。