論文の概要: Towards Principled Multi-Agent Task Agnostic Exploration
- arxiv url: http://arxiv.org/abs/2502.08365v1
- Date: Wed, 12 Feb 2025 12:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:44.298392
- Title: Towards Principled Multi-Agent Task Agnostic Exploration
- Title(参考訳): マルチエージェントタスク非依存探索の原理化に向けて
- Authors: Riccardo Zamboni, Mirco Mutti, Marcello Restelli,
- Abstract要約: 強化学習では、通常、タスク仕様に先立ってアクセスせずに環境を探索する際、タスクに依存しない探索を指す。
本稿では,状態分布エントロピーの最大化問題に対する複数のエージェントへの一般化を通じて,この問題に対処する。
実践的な設定でこの問題に対処するために,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 44.601019677298005
- License:
- Abstract: In reinforcement learning, we typically refer to task-agnostic exploration when we aim to explore the environment without access to the task specification a priori. In a single-agent setting the problem has been extensively studied and mostly understood. A popular approach cast the task-agnostic objective as maximizing the entropy of the state distribution induced by the agent's policy, from which principles and methods follows. In contrast, little is known about task-agnostic exploration in multi-agent settings, which are ubiquitous in the real world. How should different agents explore in the presence of others? In this paper, we address this question through a generalization to multiple agents of the problem of maximizing the state distribution entropy. First, we investigate alternative formulations, highlighting respective positives and negatives. Then, we present a scalable, decentralized, trust-region policy search algorithm to address the problem in practical settings. Finally, we provide proof of concept experiments to both corroborate the theoretical findings and pave the way for task-agnostic exploration in challenging multi-agent settings.
- Abstract(参考訳): 強化学習では、通常、タスク仕様に先立ってアクセスせずに環境を探索する際、タスクに依存しない探索を指す。
単一エージェントの環境では、この問題は広く研究され、主に理解されている。
一般的なアプローチでは、タスクに依存しない目的は、エージェントの方針によって引き起こされる状態分布のエントロピーを最大化することであり、その原則と方法が従う。
対照的に、実世界で広く見られるマルチエージェント設定におけるタスク非依存の探索についてはほとんど知られていない。
異なるエージェントが他のエージェントの存在を探索するにはどうすればよいのか?
本稿では,状態分布エントロピーの最大化問題に対する複数のエージェントへの一般化を通じて,この問題に対処する。
まず、それぞれの正と負を強調した代替定式化について検討する。
そこで我々は,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案し,実践的な設定でこの問題に対処する。
最後に,理論的な知見を裏付ける概念実験の実証と,課題に依存しないマルチエージェント環境における課題探索の方法の舗装について述べる。
関連論文リスト
- Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Emergence of Novelty in Evolutionary Algorithms [0.0]
迷路問題にアプローチを導入し,提案した解と比較する。
私たちのソリューションでは、パフォーマンスが大幅に向上すると同時に、はるかにシンプルであることに気付きました。
そこで我々は,この問題を一般化し,より高度なタスクセットであるAtari Gamesにアプローチを適用する。
論文 参考訳(メタデータ) (2022-06-27T13:49:41Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Discrete-Time Mean Field Control with Environment States [25.44061731738579]
平均フィールド制御と平均フィールドゲームは、多くのエージェントとの大規模なマルチエージェント問題のためのトラクタブルソリューションとして確立されています。
有限エージェントケースでのエージェント数の増加に伴い、近似最適性を厳格に確立します。
動的プログラミングの原則が成り立ち、その結果、最適な定常的なポリシーが存在することが分かりました。
論文 参考訳(メタデータ) (2021-04-30T10:58:01Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Task-Optimal Exploration in Linear Dynamical Systems [29.552894877883883]
タスクガイドによる探索を行い、タスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。
我々は、関心のあるタスクを完了させることの難しさを明示的に定量化する、インスタンス依存およびタスク依存の下位境界を提供する。
本研究では,タスク完了に必要な情報を正確に収集し,インスタンスとタスクの最適サンプルの複雑さを達成するための有限時間境界を提供することにより,環境を最適に探索することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:42:22Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。