論文の概要: Stackelberg Decision Transformer for Asynchronous Action Coordination in
Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2305.07856v1
- Date: Sat, 13 May 2023 07:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:19:16.396561
- Title: Stackelberg Decision Transformer for Asynchronous Action Coordination in
Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムにおける非同期動作コーディネーションのためのstackelberg決定トランスフォーマ
- Authors: Bin Zhang, Hangyu Mao, Lijuan Li, Zhiwei Xu, Dapeng Li, Rui Zhao,
Guoliang Fan
- Abstract要約: マルチエージェントシステム(MAS)における強化行動調整の課題
エージェント間の階層的協調の困難を解消する適応可能なアプローチとして,Stackelberg Decision Transformer (STEER)を提案する。
実験により,本手法はスタックルバーグ平衡解に収束し,複雑なシナリオにおいて既存手法よりも優れることを示した。
- 参考スコア(独自算出の注目度): 19.130281505547064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Asynchronous action coordination presents a pervasive challenge in
Multi-Agent Systems (MAS), which can be represented as a Stackelberg game (SG).
However, the scalability of existing Multi-Agent Reinforcement Learning (MARL)
methods based on SG is severely constrained by network structures or
environmental limitations. To address this issue, we propose the Stackelberg
Decision Transformer (STEER), a heuristic approach that resolves the
difficulties of hierarchical coordination among agents. STEER efficiently
manages decision-making processes in both spatial and temporal contexts by
incorporating the hierarchical decision structure of SG, the modeling
capability of autoregressive sequence models, and the exploratory learning
methodology of MARL. Our research contributes to the development of an
effective and adaptable asynchronous action coordination method that can be
widely applied to various task types and environmental configurations in MAS.
Experimental results demonstrate that our method can converge to Stackelberg
equilibrium solutions and outperforms other existing methods in complex
scenarios.
- Abstract(参考訳): 非同期アクションコーディネーションは、マルチエージェントシステム(mas)において、スタックルバーグゲーム(sg)として表現できる広汎な挑戦を示す。
しかし,SGに基づくMARL(Multi-Agent Reinforcement Learning)手法のスケーラビリティは,ネットワーク構造や環境制約によって厳しく制約されている。
この問題に対処するために,エージェント間の階層的協調の困難を解消するヒューリスティックアプローチであるStackelberg Decision Transformer (STEER)を提案する。
STEERは、SGの階層的決定構造、自己回帰配列モデルのモデリング能力、MARLの探索的学習手法を取り入れ、空間的および時間的文脈における意思決定プロセスを効率的に管理する。
本研究は,masにおける様々なタスクタイプや環境構成に広く適用可能な,効果的かつ適応可能な非同期動作協調手法の開発に寄与する。
実験の結果,提案手法はstackelberg平衡解に収束し,他の既存手法よりも複雑なシナリオで優れていることがわかった。
関連論文リスト
- Weighted strategies to guide a multi-objective evolutionary algorithm
for multi-UAV mission planning [12.97430155510359]
この研究は、新しい個体の生成と突然変異のための重み付きランダム・ジェネレータを提案する。
この研究の主な目的は、マルチUAVミッション計画のためのMOEAソルバの収束率を下げることである。
論文 参考訳(メタデータ) (2024-02-28T23:05:27Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [68.8128246362533]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
我々の重要な洞察は、共有知識とタスク固有の知識を識別して分離し、それらを動的に統合することで、パラメータ干渉問題を大幅に緩和できるということです。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - The reinforcement learning-based multi-agent cooperative approach for
the adaptive speed regulation on a metallurgical pickling line [0.0]
提案手法は,基本アルゴリズムとしての数学的モデリングと協調型マルチエージェント強化学習システムを組み合わせたものである。
我々は、重工業における現実的なタスクに対して、Deep Q-Learningをどのように適用できるかを実証し、既存の自動化システムを大幅に改善した。
論文 参考訳(メタデータ) (2020-08-16T15:10:39Z) - A Hybrid Evolutionary Algorithm for Reliable Facility Location Problem [10.668347198815438]
信頼性施設配置問題(RFLP)は、現代のサプライチェーンとロジスティクスの意思決定と管理において重要な役割を担っている。
本稿では,RFLPの新しいモデルを提案する。既存の作業のように,各顧客に一定数の施設を割り当てる代わりに,割り当てられた施設数を独立変数として設定する。
そこで我々は,記憶可能な局所探索(MLS)法と進化的アルゴリズム(EA)を組み合わせたハイブリッド進化アルゴリズム EAMLS を提案する。
論文 参考訳(メタデータ) (2020-06-27T11:31:55Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。