論文の概要: Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs
- arxiv url: http://arxiv.org/abs/2307.11629v2
- Date: Sun, 20 Aug 2023 14:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 22:56:10.914400
- Title: Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs
- Title(参考訳): クロネッカーグラフに基づくスケーラブルなマルチエージェント被覆オプション発見
- Authors: Jiayu Chen, Jingdi Chen, Tian Lan, Vaneet Aggarwal
- Abstract要約: 本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
- 参考スコア(独自算出の注目度): 49.71319907864573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Covering skill (a.k.a., option) discovery has been developed to improve the
exploration of RL in single-agent scenarios with sparse reward signals, through
connecting the most distant states in the embedding space provided by the
Fiedler vector of the state transition graph. Given that joint state space
grows exponentially with the number of agents in multi-agent systems, existing
researches still relying on single-agent skill discovery either become
prohibitive or fail to directly discover joint skills that improve the
connectivity of the joint state space. In this paper, we propose multi-agent
skill discovery which enables the ease of decomposition. Our key idea is to
approximate the joint state space as a Kronecker graph, based on which we can
directly estimate its Fiedler vector using the Laplacian spectrum of individual
agents' transition graphs. Further, considering that directly computing the
Laplacian spectrum is intractable for tasks with infinite-scale state spaces,
we further propose a deep learning extension of our method by estimating
eigenfunctions through NN-based representation learning techniques. The
evaluation on multi-agent tasks built with simulators like Mujoco, shows that
the proposed algorithm can successfully identify multi-agent skills, and
significantly outperforms the state-of-the-art. Codes are available at:
https://github.itap.purdue.edu/Clan-labs/Scalable_MAOD_via_KP.
- Abstract(参考訳): 被覆技術(オプション)は、状態遷移グラフのフィドラーベクトルによって提供される埋め込み空間の最も遠い状態を接続することで、スパース報酬信号を持つ単一エージェントシナリオにおけるRLの探索を改善するために開発された。
ジョイントステートスペースはマルチエージェントシステムのエージェント数とともに指数関数的に増加するので、既存の研究はシングルエージェントのスキル発見に依存しているため、ジョイントステートスペースの接続性を改善するジョイントスキルを直接発見することができない。
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々の重要なアイデアは、個々のエージェントの遷移グラフのラプラシアンスペクトルを用いて直接そのフィドラーベクトルを推定できるクロネッカーグラフとして合同状態空間を近似することである。
さらに,ラプラシアンスペクトルを直接計算することは,無限大の状態空間を持つタスクでは難解であると考え,nnに基づく表現学習手法を用いて固有関数を推定することで,この手法の深層学習拡張を提案する。
Mujocoのようなシミュレータで構築されたマルチエージェントタスクの評価は、提案アルゴリズムがマルチエージェントスキルの同定に成功し、最先端のタスクよりも大幅に優れていることを示す。
コードは以下の通り:https://github.itap.purdue.edu/Clan-labs/Scalable_MAOD_via_KP。
関連論文リスト
- CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model [12.461378793357705]
マルチエージェント協調認識は環境のより深い理解を促進する。
協調知覚の最近の研究は、主にCNNやトランスフォーマーを用いて空間次元における特徴表現と融合を学習している。
資源効率の良い時間空間協調状態空間モデルCollaMambaを提案する。
論文 参考訳(メタデータ) (2024-09-12T02:50:04Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Decentralized Multi-Agent Active Search and Tracking when Targets
Outnumber Agents [8.692007892160913]
そこで我々は,DecSTERと呼ばれる分散マルチエージェント,マルチターゲット,同時アクティブ検索・追跡アルゴリズムを提案する。
提案アルゴリズムは,確率仮説密度フィルタの逐次モントカルロ法とトンプソンサンプリングを併用し,分散化マルチエージェント意思決定を行う。
シミュレーションでは,DecSTERは信頼性の低いエージェント間通信に頑健であり,最適サブパターン割り当て(OSPA)の指標で情報グレディベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-06T08:10:58Z) - Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Bridging the Domain Gap for Multi-Agent Perception [19.724227909352976]
マルチエージェント認識のための領域ギャップを橋渡しする,最初の軽量フレームワークを提案する。
我々のフレームワークは、複数の次元の機能を整列する学習可能な機能リサイザと、ドメイン適応のための疎いクロスドメイントランスフォーマーから構成されている。
提案手法は, 異なる領域からの特徴のギャップを効果的に埋めることができ, ポイントクラウドベースの3Dオブジェクト検出において, 少なくとも8%以上の精度で他のベースライン法よりも優れる。
論文 参考訳(メタデータ) (2022-10-16T05:29:21Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Learning Multi-agent Skills for Tabular Reinforcement Learning using
Factor Graphs [41.17714498464354]
エージェント間の協調的な探索行動により,マルチエージェントの選択肢を直接計算できることが示唆された。
提案アルゴリズムは,マルチエージェントオプションの同定に成功し,シングルエージェントオプションや非オプションを用いることで,従来よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-01-20T15:33:08Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。