論文の概要: Multi-agent transformer-accelerated RL for satisfaction of STL specifications
- arxiv url: http://arxiv.org/abs/2403.15916v1
- Date: Sat, 23 Mar 2024 19:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:32:18.546385
- Title: Multi-agent transformer-accelerated RL for satisfaction of STL specifications
- Title(参考訳): STL仕様を満たすマルチエージェントトランス高速化RL
- Authors: Albin Larsson Forsberg, Alexandros Nikou, Aneta Vulgarakis Feljan, Jana Tumova,
- Abstract要約: 時間依存型マルチエージェント変換器を提案し,時間依存型マルチエージェント問題を効率的に解く。
我々は統計学のツールを用いて、ポリシーの下で生成された軌道がタスクを満足する確率を検証する。
両事例において,本手法は文献ベースラインアルゴリズムよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 45.451687009627165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main challenges in multi-agent reinforcement learning is scalability as the number of agents increases. This issue is further exacerbated if the problem considered is temporally dependent. State-of-the-art solutions today mainly follow centralized training with decentralized execution paradigm in order to handle the scalability concerns. In this paper, we propose time-dependent multi-agent transformers which can solve the temporally dependent multi-agent problem efficiently with a centralized approach via the use of transformers that proficiently handle the large input. We highlight the efficacy of this method on two problems and use tools from statistics to verify the probability that the trajectories generated under the policy satisfy the task. The experiments show that our approach has superior performance against the literature baseline algorithms in both cases.
- Abstract(参考訳): マルチエージェント強化学習における大きな課題の1つは、エージェントの数が増えるにつれてスケーラビリティである。
この問題は、検討された問題が時間的依存である場合、さらに悪化する。
現在最先端のソリューションは、スケーラビリティの懸念に対処するため、主に分散実行パラダイムによる集中的なトレーニングに従っています。
本稿では,時間依存型マルチエージェント変換器を提案する。
本稿では,この手法が2つの問題に対して有効であることを示すとともに,その条件下で発生した軌道がタスクを満足する確率を検証するための統計ツールを使用する。
両事例において,本手法は文献ベースラインアルゴリズムよりも優れた性能を示した。
関連論文リスト
- Towards Fault Tolerance in Multi-Agent Reinforcement Learning [10.314885753121905]
エージェントフォールトはマルチエージェント強化学習(MARL)アルゴリズムの性能に重大な脅威をもたらす。
本稿では,MARLの耐故障性を向上させるために,最適化されたモデルアーキテクチャとトレーニングデータサンプリング戦略を併用する。
論文 参考訳(メタデータ) (2024-11-30T16:56:29Z) - Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep
Reinforcement Learning [20.35644044703191]
本稿では,ニューラルネットワークに構造化プルーニングを適用して,新たなパラメータを導入することなく,共同政策の表現能力を高める方法を提案する。
提案手法をいくつかのベンチマークタスクで評価し,提案手法が他のパラメータ共有手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-02T02:17:14Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。