論文の概要: Towards Unsupervised Multi-Agent Reinforcement Learning via Task-Agnostic Exploration
- arxiv url: http://arxiv.org/abs/2502.08365v3
- Date: Tue, 24 Jun 2025 11:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 17:41:07.768715
- Title: Towards Unsupervised Multi-Agent Reinforcement Learning via Task-Agnostic Exploration
- Title(参考訳): タスク非依存探索による教師なしマルチエージェント強化学習に向けて
- Authors: Riccardo Zamboni, Mirco Mutti, Marcello Restelli,
- Abstract要約: 実践的な設定でこの問題に対処するために,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案する。
本研究では,特定の目的,すなわち混合エントロピーの最適化が,トラクタビリティと性能のトレードオフに優れたものであることを示す。
- 参考スコア(独自算出の注目度): 44.601019677298005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning, we typically refer to unsupervised pre-training when we aim to pre-train a policy without a priori access to the task specification, i.e. rewards, to be later employed for efficient learning of downstream tasks. In single-agent settings, the problem has been extensively studied and mostly understood. A popular approach, called task-agnostic exploration, casts the unsupervised objective as maximizing the entropy of the state distribution induced by the agent's policy, from which principles and methods follow. In contrast, little is known about it in multi-agent settings, which are ubiquitous in the real world. What are the pros and cons of alternative problem formulations in this setting? How hard is the problem in theory, how can we solve it in practice? In this paper, we address these questions by first characterizing those alternative formulations and highlighting how the problem, even when tractable in theory, is non-trivial in practice. Then, we present a scalable, decentralized, trust-region policy search algorithm to address the problem in practical settings. Finally, we provide numerical validations to both corroborate the theoretical findings and pave the way for unsupervised multi-agent reinforcement learning via task-agnostic exploration in challenging domains, showing that optimizing for a specific objective, namely mixture entropy, provides an excellent trade-off between tractability and performances.
- Abstract(参考訳): 強化学習では、通常、タスク仕様に事前アクセスせずにポリシーを事前訓練すること、すなわち報酬を後から下流タスクの効率的な学習に使用する場合、教師なし事前学習を指す。
単一エージェント環境では、この問題は広く研究され、主に理解されている。
タスク非依存探索と呼ばれる一般的なアプローチは、教師なしの目的を、エージェントの方針によって引き起こされる状態分布のエントロピーを最大化するものとして、その原則と方法が従うべきものである。
対照的に、実世界で広く見られるマルチエージェント設定では、ほとんど知られていない。
この設定における代替問題定式化の長所と短所は何か。
理論上の問題はどの程度難しいのか、実際にどのように解決できるのか?
本稿では,これらの代替式を最初に特徴付けることで,理論的に計算可能な問題であっても,実際にどのようにして問題に対処するかを強調することによって,これらの問題に対処する。
そこで我々は,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案し,実践的な設定でこの問題に対処する。
最後に, 課題領域におけるタスク非依存探索による教師なしマルチエージェント強化学習の手法を, 理論的知見の相関関係と, 課題領域における教師なしマルチエージェント強化学習の道を開くための数値的検証を行い, 混合エントロピー(mixed entropy)という特定の目的への最適化が, トラクション性と性能の優れたトレードオフをもたらすことを示した。
関連論文リスト
- Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Emergence of Novelty in Evolutionary Algorithms [0.0]
迷路問題にアプローチを導入し,提案した解と比較する。
私たちのソリューションでは、パフォーマンスが大幅に向上すると同時に、はるかにシンプルであることに気付きました。
そこで我々は,この問題を一般化し,より高度なタスクセットであるAtari Gamesにアプローチを適用する。
論文 参考訳(メタデータ) (2022-06-27T13:49:41Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Discrete-Time Mean Field Control with Environment States [25.44061731738579]
平均フィールド制御と平均フィールドゲームは、多くのエージェントとの大規模なマルチエージェント問題のためのトラクタブルソリューションとして確立されています。
有限エージェントケースでのエージェント数の増加に伴い、近似最適性を厳格に確立します。
動的プログラミングの原則が成り立ち、その結果、最適な定常的なポリシーが存在することが分かりました。
論文 参考訳(メタデータ) (2021-04-30T10:58:01Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Task-Optimal Exploration in Linear Dynamical Systems [29.552894877883883]
タスクガイドによる探索を行い、タスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。
我々は、関心のあるタスクを完了させることの難しさを明示的に定量化する、インスタンス依存およびタスク依存の下位境界を提供する。
本研究では,タスク完了に必要な情報を正確に収集し,インスタンスとタスクの最適サンプルの複雑さを達成するための有限時間境界を提供することにより,環境を最適に探索することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:42:22Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。