論文の概要: Oryx: a Performant and Scalable Algorithm for Many-Agent Coordination in Offline MARL
- arxiv url: http://arxiv.org/abs/2505.22151v1
- Date: Wed, 28 May 2025 09:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.526989
- Title: Oryx: a Performant and Scalable Algorithm for Many-Agent Coordination in Offline MARL
- Title(参考訳): Oryx: オフラインMARLにおける多エージェントコーディネーションのための高性能かつスケーラブルなアルゴリズム
- Authors: Claude Formanek, Omayma Mahjoub, Louay Ben Nessir, Sasha Abramowitz, Ruan de Kock, Wiem Khlifi, Simon Du Toit, Felix Chalumeau, Daniel Rajaonarivonivelomanantsoa, Arnol Fokam, Siddarth Singh, Ulrich Mbou Sob, Arnu Pretorius,
- Abstract要約: オフラインマルチエージェント強化学習(MARL)における鍵となる課題は、複雑な環境で効果的なマルチエージェント多段階協調を実現することである。
この課題に対処するために,オフライン協調型MARLのための新しいアルゴリズムであるOryxを提案する。
Oryxは65のテストデータセットの80%以上で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 3.657585087956044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in offline multi-agent reinforcement learning (MARL) is achieving effective many-agent multi-step coordination in complex environments. In this work, we propose Oryx, a novel algorithm for offline cooperative MARL to directly address this challenge. Oryx adapts the recently proposed retention-based architecture Sable and combines it with a sequential form of implicit constraint Q-learning (ICQ), to develop a novel offline auto-regressive policy update scheme. This allows Oryx to solve complex coordination challenges while maintaining temporal coherence over lengthy trajectories. We evaluate Oryx across a diverse set of benchmarks from prior works (SMAC, RWARE, and Multi-Agent MuJoCo) covering tasks of both discrete and continuous control, varying in scale and difficulty. Oryx achieves state-of-the-art performance on more than 80% of the 65 tested datasets, outperforming prior offline MARL methods and demonstrating robust generalisation across domains with many agents and long horizons. Finally, we introduce new datasets to push the limits of many-agent coordination in offline MARL, and demonstrate Oryx's superior ability to scale effectively in such settings. We will make all of our datasets, experimental data, and code available upon publication.
- Abstract(参考訳): オフラインマルチエージェント強化学習(MARL)における鍵となる課題は、複雑な環境で効果的なマルチエージェント多段階協調を実現することである。
本研究では,オフライン協調型MARLのための新しいアルゴリズムであるOryxを提案する。
Oryxは、最近提案されたRetention-based Architecture Sableに適応し、暗黙の制約Q学習(ICQ)のシーケンシャルな形式と組み合わせ、新しいオフライン自動回帰ポリシー更新スキームを開発する。
これにより、オリックスは長い軌道上の時間的コヒーレンスを維持しながら複雑な協調問題を解くことができる。
我々は,従来の作業(SMAC,RWARE,Multi-Agent MuJoCo)から得られた様々なベンチマークからOryxを評価する。
Oryxは65のテストデータセットの80%以上で最先端のパフォーマンスを実現し、以前のオフラインMARLメソッドよりも優れ、多くのエージェントと長い水平線を持つドメイン間の堅牢な一般化を実証している。
最後に、オフラインMARLにおける多エージェント調整の限界を押し上げるために、新しいデータセットを導入し、そのような設定で効果的にスケールできるOryxの優れた能力を示す。
データセット、実験データ、および公開時に利用可能なコードをすべて作成します。
関連論文リスト
- SPECTra: Scalable Multi-Agent Reinforcement Learning with Permutation-Free Networks [3.7687375904925484]
協調型マルチエージェント強化学習(MARL)では, エージェント数とともに状態空間が指数関数的に増大する置換問題により, サンプル効率が低下する。
本稿では,置換等価性とスケーラビリティを保証する新しいエージェントネットワークと非線形ミキシングネットワークを提案する。
提案手法は既存の手法に比べて優れた学習性能を実現する。
論文 参考訳(メタデータ) (2025-03-14T04:26:51Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Variational Offline Multi-agent Skill Discovery [47.924414207796005]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再学習することなく,関連するタスク間で伝達可能である。
StarCraftタスクに対する実証的な評価は、既存の階層型マルチエージェント強化学習(MARL)法よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem [22.385585755496116]
既存のMARL(Multi-Agent Reinforcement Learning)手法はオンラインであり,新たなインタラクションの収集に費用がかかる,あるいは危険である実世界のアプリケーションには実用的ではない。
戦略合意(SA)と戦略細調整(SFT)の調整課題を特定し,定式化する。
MOMA-PPO (Model-based Offline Multi-Agent Proximal Policy Optimization) は,合成相互作用データを生成し,エージェントがポリシーを微調整しながら戦略に収束することを可能にするアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-26T18:43:16Z) - Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning [16.707045765042505]
現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-06-07T08:02:31Z) - Scalable Anytime Planning for Multi-Agent MDPs [37.69939216970677]
動的協調を必要とする大規模マルチエージェント連続的決定問題に対するスケーラブルな木探索計画アルゴリズムを提案する。
提案アルゴリズムは,モンテカルロ木探索 (MCTS) を用いたオンライン計画,協調グラフを用いた局所エージェント相互作用の因子表現,および協調行動選択のための反復マックスプラス法からなる。
論文 参考訳(メタデータ) (2021-01-12T22:50:17Z) - A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied
Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。
既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。
既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。
SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文 参考訳(メタデータ) (2020-07-09T17:59:57Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。