論文の概要: Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration
- arxiv url: http://arxiv.org/abs/2410.02511v1
- Date: Thu, 3 Oct 2024 14:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:51:33.653485
- Title: Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration
- Title(参考訳): LLMは効率的なマルチエージェント探索を可能にする
- Authors: Yun Qu, Boyuan Wang, Yuhang Jiang, Jianzhun Shao, Yixiu Mao, Cheems Wang, Chang Liu, Xiangyang Ji,
- Abstract要約: 本稿では,多言語探索を効率的に行うために,LLM (Large Language Model) から情報伝達タスク関連ガイダンスを選択する LEMAE を提案する。
具体的には,LLMからの言語知識を,低推論コストで識別的に,タスク遂行に不可欠な記号的キー状態に分類する。
LEMAEは冗長な探索を減らし、既存のSOTAアプローチよりも大きなマージン(例えば SMAC や MPE)で性能を向上し、特定のシナリオにおいて10倍の加速を達成する。
- 参考スコア(独自算出の注目度): 46.938186139700804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With expansive state-action spaces, efficient multi-agent exploration remains a longstanding challenge in reinforcement learning. Although pursuing novelty, diversity, or uncertainty attracts increasing attention, redundant efforts brought by exploration without proper guidance choices poses a practical issue for the community. This paper introduces a systematic approach, termed LEMAE, choosing to channel informative task-relevant guidance from a knowledgeable Large Language Model (LLM) for Efficient Multi-Agent Exploration. Specifically, we ground linguistic knowledge from LLM into symbolic key states, that are critical for task fulfillment, in a discriminative manner at low LLM inference costs. To unleash the power of key states, we design Subspace-based Hindsight Intrinsic Reward (SHIR) to guide agents toward key states by increasing reward density. Additionally, we build the Key State Memory Tree (KSMT) to track transitions between key states in a specific task for organized exploration. Benefiting from diminishing redundant explorations, LEMAE outperforms existing SOTA approaches on the challenging benchmarks (e.g., SMAC and MPE) by a large margin, achieving a 10x acceleration in certain scenarios.
- Abstract(参考訳): 拡張された状態対応空間では、効率的なマルチエージェント探索は強化学習における長年にわたる課題である。
新規性、多様性、不確実性を追求することは注意を惹きつけるが、適切なガイダンスの選択なしに探検によってもたらされる余分な努力は、コミュニティにとって現実的な問題となっている。
本稿では,LEMAEと呼ばれる系統的な手法を導入し,多言語探索の効率化を目的としたLarge Language Model (LLM) から情報伝達タスク関連ガイダンスを導出する手法を提案する。
具体的には,LLM の言語知識を,低 LLM 推論コストで識別的に,タスク遂行に不可欠な記号的キー状態に分類する。
鍵状態のパワーを解き放つため,代償密度を増大させることによりエージェントを鍵状態へ誘導するサブスペースベースの隠れ固有リワード(SHIR)を設計する。
さらに、キー状態間の遷移を組織的な探索のために特定のタスクで追跡するキー状態記憶木(KSMT)を構築します。
LEMAEは冗長な探索を減らし、既存のSOTAアプローチよりも大きなマージン(例えば、SMAC、MPE)で性能を向上し、特定のシナリオにおいて10倍の加速を実現している。
関連論文リスト
- LLM-Empowered State Representation for Reinforcement Learning [64.3351150030341]
強化学習における状態表現はしばしば重要なタスク関連の詳細を省略する。
LLMを用いたタスク関連状態表現を自律的に生成する新しい手法であるLESR(LLM-Empowered State Representation)を提案する。
LESRは高いサンプル効率を示し、ムジョコタスクの累積報酬の29%、ジム・ロボティクスタスクの成功率の30%で最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-18T07:47:51Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - FoX: Formation-aware exploration in multi-agent reinforcement learning [10.554220876480297]
本研究では, 探索空間における構成に基づく等価性関係を提案し, 異なる構成の有意義な状態のみを探索することによって探索空間を削減することを目的とする。
数値計算の結果,提案するFoXフレームワークは,Google Research Football(GRF)における最先端のMARLアルゴリズムと,Starcraft IIマルチエージェントチャレンジ(SMAC)タスクを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-08-22T08:39:44Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2021-09-14T13:16:33Z) - Decentralized Multi-Agent Reinforcement Learning for Task Offloading
Under Uncertainty [24.083871784808473]
MARL(Multi-Agent Reinforcement Learning)は、強化学習の課題である。
タスクオフロード問題を解くために、ディープMARLアルゴリズムが適用されている。
報奨信号の摂動は, 完全報奨学習と比較して, 性能の低下を招き得ることを示す。
論文 参考訳(メタデータ) (2021-07-16T20:49:30Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。