論文の概要: Stackelberg Decision Transformer for Asynchronous Action Coordination in
Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2305.07856v1
- Date: Sat, 13 May 2023 07:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:19:16.396561
- Title: Stackelberg Decision Transformer for Asynchronous Action Coordination in
Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムにおける非同期動作コーディネーションのためのstackelberg決定トランスフォーマ
- Authors: Bin Zhang, Hangyu Mao, Lijuan Li, Zhiwei Xu, Dapeng Li, Rui Zhao,
Guoliang Fan
- Abstract要約: マルチエージェントシステム(MAS)における強化行動調整の課題
エージェント間の階層的協調の困難を解消する適応可能なアプローチとして,Stackelberg Decision Transformer (STEER)を提案する。
実験により,本手法はスタックルバーグ平衡解に収束し,複雑なシナリオにおいて既存手法よりも優れることを示した。
- 参考スコア(独自算出の注目度): 19.130281505547064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Asynchronous action coordination presents a pervasive challenge in
Multi-Agent Systems (MAS), which can be represented as a Stackelberg game (SG).
However, the scalability of existing Multi-Agent Reinforcement Learning (MARL)
methods based on SG is severely constrained by network structures or
environmental limitations. To address this issue, we propose the Stackelberg
Decision Transformer (STEER), a heuristic approach that resolves the
difficulties of hierarchical coordination among agents. STEER efficiently
manages decision-making processes in both spatial and temporal contexts by
incorporating the hierarchical decision structure of SG, the modeling
capability of autoregressive sequence models, and the exploratory learning
methodology of MARL. Our research contributes to the development of an
effective and adaptable asynchronous action coordination method that can be
widely applied to various task types and environmental configurations in MAS.
Experimental results demonstrate that our method can converge to Stackelberg
equilibrium solutions and outperforms other existing methods in complex
scenarios.
- Abstract(参考訳): 非同期アクションコーディネーションは、マルチエージェントシステム(mas)において、スタックルバーグゲーム(sg)として表現できる広汎な挑戦を示す。
しかし,SGに基づくMARL(Multi-Agent Reinforcement Learning)手法のスケーラビリティは,ネットワーク構造や環境制約によって厳しく制約されている。
この問題に対処するために,エージェント間の階層的協調の困難を解消するヒューリスティックアプローチであるStackelberg Decision Transformer (STEER)を提案する。
STEERは、SGの階層的決定構造、自己回帰配列モデルのモデリング能力、MARLの探索的学習手法を取り入れ、空間的および時間的文脈における意思決定プロセスを効率的に管理する。
本研究は,masにおける様々なタスクタイプや環境構成に広く適用可能な,効果的かつ適応可能な非同期動作協調手法の開発に寄与する。
実験の結果,提案手法はstackelberg平衡解に収束し,他の既存手法よりも複雑なシナリオで優れていることがわかった。
関連論文リスト
- Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots [1.1049608786515839]
本稿では,CATMiP(Cooperative and Asynchronous Transformer-based Mission Planning)フレームワークを提案する。
CatMiPはマルチエージェント強化学習を使用して、エージェントを異質なセンシング、モーション、アクティベーション能力で調整する。
ミッションの複雑さやコミュニケーションの制約に容易に適応し、さまざまな環境サイズやチーム構成にスケールします。
論文 参考訳(メタデータ) (2024-10-08T21:14:09Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。
異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。
我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-05T03:02:57Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - A Hybrid Evolutionary Algorithm for Reliable Facility Location Problem [10.668347198815438]
信頼性施設配置問題(RFLP)は、現代のサプライチェーンとロジスティクスの意思決定と管理において重要な役割を担っている。
本稿では,RFLPの新しいモデルを提案する。既存の作業のように,各顧客に一定数の施設を割り当てる代わりに,割り当てられた施設数を独立変数として設定する。
そこで我々は,記憶可能な局所探索(MLS)法と進化的アルゴリズム(EA)を組み合わせたハイブリッド進化アルゴリズム EAMLS を提案する。
論文 参考訳(メタデータ) (2020-06-27T11:31:55Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。