論文の概要: Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.09032v2
- Date: Fri, 14 Jul 2023 02:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 17:11:50.746315
- Title: Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent
Reinforcement Learning
- Title(参考訳): 協調型多エージェント強化学習のための条件付き最適探索
- Authors: Xutong Zhao, Yangchen Pan, Chenjun Xiao, Sarath Chandar, Janarthanan
Rajendran
- Abstract要約: 協調型マルチエージェント強化学習(MARL)における効率的な探索の重要性
本研究では,逐次的行動計算の考え方に基づく協調探索を効果的に促進する探索手法を提案する。
- 参考スコア(独自算出の注目度): 24.05715475457959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient exploration is critical in cooperative deep Multi-Agent
Reinforcement Learning (MARL). In this work, we propose an exploration method
that effectively encourages cooperative exploration based on the idea of
sequential action-computation scheme. The high-level intuition is that to
perform optimism-based exploration, agents would explore cooperative strategies
if each agent's optimism estimate captures a structured dependency relationship
with other agents. Assuming agents compute actions following a sequential order
at \textit{each environment timestep}, we provide a perspective to view MARL as
tree search iterations by considering agents as nodes at different depths of
the search tree. Inspired by the theoretically justified tree search algorithm
UCT (Upper Confidence bounds applied to Trees), we develop a method called
Conditionally Optimistic Exploration (COE). COE augments each agent's
state-action value estimate with an action-conditioned optimistic bonus derived
from the visitation count of the global state and joint actions of preceding
agents. COE is performed during training and disabled at deployment, making it
compatible with any value decomposition method for centralized training with
decentralized execution. Experiments across various cooperative MARL benchmarks
show that COE outperforms current state-of-the-art exploration methods on
hard-exploration tasks.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)では,効率的な探索が重要である。
本研究では,逐次行動計算方式の考え方に基づく協調探索を効果的に促進する探索手法を提案する。
高いレベルの直感は、オプティミズムに基づく探索を実行するために、各エージェントのオプティミズム推定が他のエージェントとの構造化された依存関係関係を捉えている場合、エージェントは協調戦略を探求する、ということである。
エージェントをtextit{each environment timestep} で逐次順序で処理すると仮定すると、MARL を木探索の繰り返しと見なすことができ、エージェントを探索木の異なる深さのノードとして考えることができる。
理論的に正当化された木探索アルゴリズムUTT (Upper Confidence bounds applied to Trees) に着想を得て, 条件最適化探索法(COE)を開発した。
COEは、前のエージェントのグローバル状態の訪問数と共同行動から導かれる行動条件付き楽観的なボーナスで、各エージェントの状態-行動値の推定を増大させる。
coeはトレーニング中に実行され、デプロイ時に無効にされ、分散実行を伴う集中型トレーニングの任意の値分解方法と互換性がある。
様々な共同MARLベンチマークによる実験により、COEはハード探索タスクにおける現在の最先端探査手法よりも優れていることが示された。
関連論文リスト
- Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent
Reinforcement Learning [38.77840067555711]
本稿では,MARLを用いて訓練されたニューラルネットワークから決定木ポリシーを抽出する,解釈可能なMARLアルゴリズムの最初のセットを提案する。
第1のアルゴリズムであるIVIPERは、シングルエージェント解釈可能なRLの最近の方法であるVIPERをマルチエージェント設定に拡張する。
そこで本研究では,エージェント間の協調関係をよりよく把握するために,新しい集中型決定木学習アルゴリズムMAVIPERを提案する。
論文 参考訳(メタデータ) (2022-05-25T02:38:10Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。