論文の概要: Online Robust Multi-Agent Reinforcement Learning under Model Uncertainties
- arxiv url: http://arxiv.org/abs/2508.02948v1
- Date: Mon, 04 Aug 2025 23:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.714485
- Title: Online Robust Multi-Agent Reinforcement Learning under Model Uncertainties
- Title(参考訳): モデル不確実性を考慮したオンラインロバストマルチエージェント強化学習
- Authors: Zain Ulabedeen Farhat, Debamita Ghosh, George K. Atia, Yue Wang,
- Abstract要約: 十分に訓練されたマルチエージェントシステムは、実環境にデプロイされた時にフェールする可能性がある。
DRMGは、定義された環境不確実性のセットに対して最悪のケースパフォーマンスを最適化することで、システムのレジリエンスを高める。
本稿では、DRMGにおけるオンライン学習の先駆者であり、エージェントは事前データなしで環境相互作用から直接学習する。
- 参考スコア(独自算出の注目度): 10.054572105379425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Well-trained multi-agent systems can fail when deployed in real-world environments due to model mismatches between the training and deployment environments, caused by environment uncertainties including noise or adversarial attacks. Distributionally Robust Markov Games (DRMGs) enhance system resilience by optimizing for worst-case performance over a defined set of environmental uncertainties. However, current methods are limited by their dependence on simulators or large offline datasets, which are often unavailable. This paper pioneers the study of online learning in DRMGs, where agents learn directly from environmental interactions without prior data. We introduce the {\it Robust Optimistic Nash Value Iteration (RONAVI)} algorithm and provide the first provable guarantees for this setting. Our theoretical analysis demonstrates that the algorithm achieves low regret and efficiently finds the optimal robust policy for uncertainty sets measured by Total Variation divergence and Kullback-Leibler divergence. These results establish a new, practical path toward developing truly robust multi-agent systems.
- Abstract(参考訳): 訓練されたマルチエージェントシステムは、ノイズや敵攻撃などの環境の不確実性に起因するトレーニング環境とデプロイメント環境の間のモデルミスマッチによって、現実の環境にデプロイされた時に失敗する可能性がある。
分散ロバストマルコフゲーム(DRMG)は、定義された環境不確実性の集合に対して最悪の性能を最適化することでシステムのレジリエンスを高める。
しかしながら、現在のメソッドはシミュレータや大規模なオフラインデータセットへの依存によって制限されている。
本稿では、DRMGにおけるオンライン学習の先駆者であり、エージェントは事前データなしで環境相互作用から直接学習する。
本稿では,ロバスト最適化ナッシュ値イテレーション(RONAVI)アルゴリズムを導入し,この設定に対する最初の証明可能な保証を提供する。
理論的解析により,本アルゴリズムは低遅延を達成し,全変分数とクルバック・リーブラー分数によって測定された不確実性集合に対する最適ロバストポリシを効率的に見つけることができることを示した。
これらの結果は、真に堅牢なマルチエージェントシステムを開発するための、新しい実践的な道筋を確立する。
関連論文リスト
- Provably Near-Optimal Distributionally Robust Reinforcement Learning in Online Settings [10.983897709591885]
強化学習(Reinforcement Learning, RL)は、実世界のデプロイにおいて、sim-to-realギャップによって大きな課題に直面している。
我々は、エージェントが未知のトレーニング環境のみと対話するオンライン分散ロバストなRLの、より現実的で挑戦的な設定について研究する。
本稿では,最小限の仮定で線形後悔を保証する計算効率のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-05T03:36:50Z) - Hybrid Cross-domain Robust Reinforcement Learning [26.850955692805186]
ロバスト強化学習(RL)は、環境に不確実性があるにもかかわらず効果的な政策を学ぶことを目的としている。
本稿では,Hybrid Cross-Domain Robust RLフレームワークであるHYDROを紹介する。
不確実性セットにおけるシミュレータと最悪のモデルのパフォーマンスギャップを計測し、最小化することにより、HYDROは、新しい不確実性フィルタリングと優先順位付けサンプリングを採用し、最も重要で信頼性の高いシミュレータサンプルを選択する。
論文 参考訳(メタデータ) (2025-05-29T02:25:13Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。
BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。
我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文 参考訳(メタデータ) (2024-12-03T19:20:08Z) - Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Offline Learning for Planning: A Summary [0.0]
自律的なエージェントの訓練は、しばしば、環境との高価で安全でない試行錯誤の相互作用を必要とする。
さまざまなタスクを実行するインテリジェントエージェントの記録された経験を含むデータセットは、インターネット上でアクセス可能である。
本稿では,最先端のオフライン学習ベースラインの開発を動機とするアイデアを要約する。
論文 参考訳(メタデータ) (2020-10-05T11:41:11Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。