論文の概要: Distributionally Robust Online Markov Game with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2511.07831v1
- Date: Wed, 12 Nov 2025 01:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.499598
- Title: Distributionally Robust Online Markov Game with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた分布ロバストオンラインマルコフゲーム
- Authors: Zewu Zheng, Yuanyuan Lin,
- Abstract要約: シミュレーターで訓練されたエージェントがテスト中に大幅なパフォーマンス低下に直面している、シミュレート・トゥ・リアルギャップは、強化学習における根本的な課題である。
対話型データ収集と大規模状態空間を用いたサンプル効率のアルゴリズムを考案する。
提案手法では,本アルゴリズムは単一エージェント設定において,これまでで最高の結果と一致し,最小限のサンプル値の複雑性を実現する。
- 参考スコア(独自算出の注目度): 2.4636535146231613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sim-to-real gap, where agents trained in a simulator face significant performance degradation during testing, is a fundamental challenge in reinforcement learning. Extansive works adopt the framework of distributionally robust RL, to learn a policy that acts robustly under worst case environment shift. Within this framework, our objective is to devise algorithms that are sample efficient with interactive data collection and large state spaces. By assuming d-rectangularity of environment dynamic shift, we identify a fundamental hardness result for learning in online Markov game, and address it by adopting minimum value assumption. Then, a novel least square value iteration type algorithm, DR-CCE-LSI, with exploration bonus devised specifically for multiple agents, is proposed to find an \episilon-approximate robust Coarse Correlated Equilibrium(CCE). To obtain sample efficient learning, we find that: when the feature mapping function satisfies certain properties, our algorithm, DR-CCE-LSI, is able to achieve ε-approximate CCE with a regret bound of O{dHmin{H,1/min{σ_i}}\sqrt{K}}, where K is the number of interacting episodes, H is the horizon length, d is the feature dimension, and \simga_i represents the uncertainty level of player i. Our work introduces the first sample-efficient algorithm for this setting, matches the best result so far in single agent setting, and achieves minimax optimalsample complexity in terms of the feature dimension d. Meanwhile, we also conduct simulation study to validate the efficacy of our algorithm in learning a robust equilibrium.
- Abstract(参考訳): シミュレーターで訓練されたエージェントがテスト中に大幅な性能低下に直面しているシム・トゥ・リアルギャップは、強化学習における根本的な課題である。
既存の作業は分布的に堅牢なRLの枠組みを採用し、最悪の場合の環境シフトの下で堅牢に機能するポリシーを学ぶ。
このフレームワークでは,対話型データ収集と大規模状態空間を用いたサンプリング効率の高いアルゴリズムを考案することが目的である。
環境の動的シフトのd-矩形性を仮定することにより、オンラインマルコフゲームにおいて学習するための基本的な難易度を識別し、最小値の仮定を採用することで対処する。
次に,複数のエージェントに対して特別に考案された探索ボーナス付き最小二乗反復型アルゴリズムDR-CCE-LSIを提案する。
特徴写像関数が特定の性質を満たすとき、我々のアルゴリズム DR-CCE-LSI は O{dHmin{H,1/min{σ_i}}\sqrt{K}} の残差でε-近似 CCE を達成することができ、K は相互作用するエピソードの数、H は水平長、d は特徴次元、そして \simga_i はプレイヤー i の不確かさレベルを表す。
本研究では, 単一エージェント設定において, 今までで最高の結果と一致し, 特徴次元dで最小値最適サンプルの複雑性を達成した最初のサンプル効率アルゴリズムを提案する。
また,ロバスト平衡学習におけるアルゴリズムの有効性を検証するためのシミュレーション研究も行なっている。
関連論文リスト
- Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T17:56:44Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。