Fugu-MT 論文翻訳(概要): Stackelberg Decision Transformer for Asynchronous Action Coordination in Multi-Agent Systems

論文の概要: Stackelberg Decision Transformer for Asynchronous Action Coordination in Multi-Agent Systems

arxiv url: http://arxiv.org/abs/2305.07856v1
Date: Sat, 13 May 2023 07:29:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 19:19:16.396561
Title: Stackelberg Decision Transformer for Asynchronous Action Coordination in Multi-Agent Systems
Title（参考訳）: マルチエージェントシステムにおける非同期動作コーディネーションのためのstackelberg決定トランスフォーマ
Authors: Bin Zhang, Hangyu Mao, Lijuan Li, Zhiwei Xu, Dapeng Li, Rui Zhao, Guoliang Fan
Abstract要約: マルチエージェントシステム(MAS)における強化行動調整の課題エージェント間の階層的協調の困難を解消する適応可能なアプローチとして,Stackelberg Decision Transformer (STEER)を提案する。実験により,本手法はスタックルバーグ平衡解に収束し,複雑なシナリオにおいて既存手法よりも優れることを示した。
参考スコア（独自算出の注目度）: 19.130281505547064
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Asynchronous action coordination presents a pervasive challenge in Multi-Agent Systems (MAS), which can be represented as a Stackelberg game (SG). However, the scalability of existing Multi-Agent Reinforcement Learning (MARL) methods based on SG is severely constrained by network structures or environmental limitations. To address this issue, we propose the Stackelberg Decision Transformer (STEER), a heuristic approach that resolves the difficulties of hierarchical coordination among agents. STEER efficiently manages decision-making processes in both spatial and temporal contexts by incorporating the hierarchical decision structure of SG, the modeling capability of autoregressive sequence models, and the exploratory learning methodology of MARL. Our research contributes to the development of an effective and adaptable asynchronous action coordination method that can be widely applied to various task types and environmental configurations in MAS. Experimental results demonstrate that our method can converge to Stackelberg equilibrium solutions and outperforms other existing methods in complex scenarios.
Abstract（参考訳）: 非同期アクションコーディネーションは、マルチエージェントシステム(mas)において、スタックルバーグゲーム(sg)として表現できる広汎な挑戦を示す。しかし,SGに基づくMARL(Multi-Agent Reinforcement Learning)手法のスケーラビリティは,ネットワーク構造や環境制約によって厳しく制約されている。この問題に対処するために,エージェント間の階層的協調の困難を解消するヒューリスティックアプローチであるStackelberg Decision Transformer (STEER)を提案する。 STEERは、SGの階層的決定構造、自己回帰配列モデルのモデリング能力、MARLの探索的学習手法を取り入れ、空間的および時間的文脈における意思決定プロセスを効率的に管理する。本研究は,masにおける様々なタスクタイプや環境構成に広く適用可能な,効果的かつ適応可能な非同期動作協調手法の開発に寄与する。実験の結果,提案手法はstackelberg平衡解に収束し,他の既存手法よりも複雑なシナリオで優れていることがわかった。

関連論文リスト

Adaptability in Multi-Agent Reinforcement Learning: A Framework and Unified Review [9.246912481179464]
MARL(Multi-Agent Reinforcement Learning)は、シミュレーションベンチマークと制約付きシナリオ間で複数のエージェントを協調する上で、明らかな効果を示している。この調査は、動的で実世界のマルチエージェントシステムへのデプロイに適したアルゴリズムの開発に寄与する。
論文参考訳（メタデータ） (2025-07-14T10:39:17Z)
Multi-Agent Collaboration via Evolving Orchestration [61.93162413517026]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。 LLMをベースとしたマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し、中央オーケストレータがタスク状態の進化に応じてエージェントを動的に指示する。クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-05-26T07:02:17Z)
PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文参考訳（メタデータ） (2025-05-25T17:58:50Z)
Model Evolution Framework with Genetic Algorithm for Multi-Task Reinforcement Learning [85.91908329457081]
マルチタスク強化学習は、様々なシナリオにまたがって一般化可能なエージェントを開発することを目的として、様々なタスクを完遂するために単一のポリシーを採用する。既存のアプローチでは、ルーティングネットワークを使用して各タスクの特定のルートを生成し、モジュールのセットをさまざまなモデルに再構築し、複数のタスクを同時に完了させるのが一般的である。本稿では,遺伝的アルゴリズム(MEGA)を用いたモデル進化フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T09:22:34Z)
A Local Information Aggregation based Multi-Agent Reinforcement Learning for Robot Swarm Dynamic Task Allocation [4.144893164317513]
分散化された部分観測可能なマルコフ決定プロセス(Dec_POMDP)を用いた新しいフレームワークを提案する。我々の方法論の核心は、局所情報集約多元決定政策勾配(LIA_MADDPG)アルゴリズムである。実験により,LIAモジュールは様々なCTDEベースのMARL法にシームレスに統合可能であることが示された。
論文参考訳（メタデータ） (2024-11-29T07:53:05Z)
Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots [1.1049608786515839]
本稿では,CATMiP(Cooperative and Asynchronous Transformer-based Mission Planning)フレームワークを提案する。 CatMiPはマルチエージェント強化学習を使用して、エージェントを異質なセンシング、モーション、アクティベーション能力で調整する。ミッションの複雑さやコミュニケーションの制約に容易に適応し、さまざまな環境サイズやチーム構成にスケールします。
論文参考訳（メタデータ） (2024-10-08T21:14:09Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文参考訳（メタデータ） (2024-05-28T11:41:41Z)
Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。 SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-05T03:02:57Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文参考訳（メタデータ） (2023-04-20T14:47:54Z)
Revisiting GANs by Best-Response Constraint: Perspective, Methodology, and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文参考訳（メタデータ） (2022-05-20T12:42:41Z)
A Hybrid Evolutionary Algorithm for Reliable Facility Location Problem [10.668347198815438]
信頼性施設配置問題(RFLP)は、現代のサプライチェーンとロジスティクスの意思決定と管理において重要な役割を担っている。本稿では,RFLPの新しいモデルを提案する。既存の作業のように,各顧客に一定数の施設を割り当てる代わりに,割り当てられた施設数を独立変数として設定する。そこで我々は,記憶可能な局所探索(MLS)法と進化的アルゴリズム(EA)を組み合わせたハイブリッド進化アルゴリズム EAMLS を提案する。
論文参考訳（メタデータ） (2020-06-27T11:31:55Z)
Planning in Markov Decision Processes with Gap-Dependent Sample Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文参考訳（メタデータ） (2020-06-10T15:05:51Z)
Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文参考訳（メタデータ） (2020-03-19T13:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。