論文の概要: Taming the Curses of Multiagency in Robust Markov Games with Large State Space through Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2605.03125v1
- Date: Mon, 04 May 2026 20:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.634026
- Title: Taming the Curses of Multiagency in Robust Markov Games with Large State Space through Linear Function Approximation
- Title(参考訳): 線形関数近似による大規模状態空間を持つロバストマルコフゲームにおける多重緊急曲線のモデリング
- Authors: Jingchu Gai, Laixi Shi,
- Abstract要約: 我々は、大きな(おそらく無限の)状態空間を持つRMGに対して、実証可能なデータ効率のアルゴリズムを開発する。
結果は、大きな(おそらく無限の)状態空間を持つRMGに対して、サンプル複雑性の多重緊急性の呪いを破る最初のものである。
- 参考スコア(独自算出の注目度): 13.733603405644523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) holds great potential but faces robustness challenges due to environmental uncertainty. To address this, distributionally robust Markov games (RMGs) optimize worst-case performance when the environment deviates from the nominal model within a uncertainty set. Beyond robustness, an equally urgent goal for MARL is data efficiency -- sampling from vast state and action spaces that grow exponentially with the number of agents potentially leads to the curse of multiagency. However, current provably data-efficient algorithms for RMGs are limited to tabular settings with finite state and action spaces, which are only computationally manageable for small-scale problems, leaving RMGs with large-scale (or infinite) state spaces largely unexplored. The only existing work beyond tabular settings focuses on linear function approximation (LFA) for a restrictive class of RMGs using vanish minimal value assumption and still suffers from sample complexity with the curse of multiagency. In this work, we focuses on general RMGs with LFA. For uncertainty sets defined by total variation distance, we develop provably data-efficient algorithms that break the curse of multiagency in both the generative model setting and a newly proposed online interactive setting. To our knowledge, our results are the first to break the curse of multiagency of sample complexity for RMGs with large (possibly infinite) state spaces, regardless of the uncertainty set construction.
- Abstract(参考訳): マルチエージェント強化学習 (MARL) は大きな可能性を秘めているが, 環境の不確実性による堅牢性の問題に直面している。
これを解決するために、分布的に堅牢なマルコフゲーム(RMG)は、環境が不確実集合内の名目モデルから逸脱した場合の最悪のケースパフォーマンスを最適化する。
堅牢性以外にも、MARLの等しく急進的な目標は、データ効率である -- エージェントの数とともに指数関数的に増加する巨大な状態とアクションスペースからサンプリングすることで、マルチ緊急の呪いにつながる可能性がある。
しかし、RMGの現在の証明可能なデータ効率のアルゴリズムは、有限状態とアクション空間を持つ表の設定に限られており、これは小さな問題に対してのみ計算可能であり、RMGを大規模な(あるいは無限の)状態空間に置き去りにしている。
表の設定を超越した既存の研究は、最小値の仮定によって制限されたRMGのクラスに対する線形関数近似(LFA)に焦点を当てており、それでも多重緊急の呪いを伴うサンプルの複雑さに悩まされている。
本稿では LFA を用いた一般 RMG に焦点を当てる。
総変動距離で定義される不確実性集合に対して、生成モデル設定と新たに提案されたオンラインインタラクティブ設定の両方において、マルチ緊急の呪いを破る確率的データ効率のアルゴリズムを開発する。
我々の知る限り、我々の結果は、不確実な集合の構成にかかわらず、大きな(おそらく無限の)状態空間を持つRMGに対して、サンプル複雑性の多重緊急性の呪いを初めて破るものである。
関連論文リスト
- Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions [51.22818149833102]
マルチエージェント強化学習(MARL)は、車間通信(C-V2X)ネットワークにおける無線リソース割り当ての有望なアプローチとして登場した。
しかし、MARLに固有の多面的課題はしばしば絡み合っており、車載環境における個々の影響を理解することは困難である。
我々は, C-V2X RRA を, 複雑さが徐々に増大する多エージェント干渉ゲーム列として定式化し, このギャップを埋める。
論文 参考訳(メタデータ) (2026-02-18T14:46:56Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
悪名高いオープンな2つの課題は、不確実性の集合の定式化と、対応するRMGがマルチ緊急の呪いを克服できるかどうかである。
本研究では,行動経済学に着想を得た自然なRMGのクラスを提案し,各エージェントの不確実性セットは,環境と他のエージェントの統合行動の両方によって形成される。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [71.59406356321101]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement [17.72127385405445]
完全協調型マルコフゲームとしてアダプティブメッシュリファインメント(AMR)の新たな定式化を提案する。
VDGN(Value Decomposition Graph Network)と呼ばれる新しい深層マルチエージェント強化学習アルゴリズムを設計する。
VDGNポリシは,グローバルエラーおよびコスト指標において,エラーしきい値に基づくポリシよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T00:41:32Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。