Fugu-MT 論文翻訳(概要): Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent Reinforcement Learning

論文の概要: Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2303.09032v1
Date: Thu, 16 Mar 2023 02:05:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 17:13:19.511355
Title: Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent Reinforcement Learning
Title（参考訳）: 協調型多エージェント強化学習のための条件付き最適探索
Authors: Xutong Zhao, Yangchen Pan, Chenjun Xiao, Sarath Chandar, Janarthanan Rajendran
Abstract要約: 協調型マルチエージェント強化学習(MARL)における効率的な探索の重要性理論的に正当化された木探索アルゴリズムUCTのアイデアに基づいて協調探索を効果的に促進する探索手法を提案する。様々な共同MARLベンチマークによる実験により、ハード探索タスクにおける現在の最先端探査手法よりも優れた結果が得られた。
参考スコア（独自算出の注目度）: 24.05715475457959
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient exploration is critical in cooperative deep Multi-Agent Reinforcement Learning (MARL). In this paper, we propose an exploration method that efficiently encourages cooperative exploration based on the idea of the theoretically justified tree search algorithm UCT (Upper Confidence bounds applied to Trees). The high-level intuition is that to perform optimism-based exploration, agents would achieve cooperative strategies if each agent's optimism estimate captures a structured dependency relationship with other agents. At each node (i.e., action) of the search tree, UCT performs optimism-based exploration using a bonus derived by conditioning on the visitation count of its parent node. We provide a perspective to view MARL as tree search iterations and develop a method called Conditionally Optimistic Exploration (COE). We assume agents take actions following a sequential order, and consider nodes at the same depth of the search tree as actions of one individual agent. COE computes each agent's state-action value estimate with an optimistic bonus derived from the visitation count of the state and joint actions taken by agents up to the current agent. COE is adaptable to any value decomposition method for centralized training with decentralized execution. Experiments across various cooperative MARL benchmarks show that COE outperforms current state-of-the-art exploration methods on hard-exploration tasks.
Abstract（参考訳）: MARL(Multi-Agent Reinforcement Learning)では,効率的な探索が重要である。本稿では,理論的に正当化された木探索アルゴリズムUTT(Upper Confidence bounds to Trees)のアイデアに基づいて,協調探索を効率的に促進する探索手法を提案する。高いレベルの直感は、オプティミズムに基づく探索を実行するために、各エージェントのオプティミズム推定が他のエージェントとの構造化された依存関係関係を捉えている場合、エージェントが協調戦略を実現することである。探索木の各ノード(つまりアクション)において、UCTは親ノードの訪問数に条件付けしたボーナスを用いて楽観的な探索を行う。我々は,MARLを木探索の繰り返しと見なす視点を提供し,条件最適化探索(COE)と呼ばれる手法を開発した。我々は、エージェントがシーケンシャルな順序に従って行動を取ると仮定し、探索ツリーの同じ深さのノードを1つのエージェントのアクションとみなす。 COEは、各エージェントの状態-行動値の推定を、エージェントが現在のエージェントに取る状態の訪問数と共同アクションから導かれる楽観的なボーナスで計算する。 coeは分散実行を伴う集中トレーニングの任意の値分解法に適応できる。様々な共同MARLベンチマークによる実験により、COEはハード探索タスクにおける現在の最先端探査手法よりも優れていることが示された。

関連論文リスト

Credit Assignment and Efficient Exploration based on Influence Scope in Multi-agent Reinforcement Learning [2.8111817372725785]
スパース・リワードシナリオにおける協調エージェントの訓練は、マルチエージェント強化学習(MARL)に重大な課題をもたらす本研究では,個々のエージェントの影響を受けうる状態の次元/属性の特定の値を取ることで,エージェントのスコープ(ISA)が状態に与える影響を計算するアルゴリズムを提案する。エージェントの行動と状態属性の相互依存は、各エージェントの信用割り当てを計算し、各エージェントの探索空間を除くために使用される。
論文参考訳（メタデータ） (2025-05-13T14:49:26Z)
Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文参考訳（メタデータ） (2024-12-22T15:16:44Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文参考訳（メタデータ） (2023-12-26T09:03:23Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文参考訳（メタデータ） (2022-12-27T11:08:49Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent Reinforcement Learning [38.77840067555711]
本稿では,MARLを用いて訓練されたニューラルネットワークから決定木ポリシーを抽出する,解釈可能なMARLアルゴリズムの最初のセットを提案する。第1のアルゴリズムであるIVIPERは、シングルエージェント解釈可能なRLの最近の方法であるVIPERをマルチエージェント設定に拡張する。そこで本研究では,エージェント間の協調関係をよりよく把握するために,新しい集中型決定木学習アルゴリズムMAVIPERを提案する。
論文参考訳（メタデータ） (2022-05-25T02:38:10Z)
Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2021-07-23T20:06:32Z)
Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。 IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文参考訳（メタデータ） (2021-02-10T01:58:28Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。