論文の概要: Theoretical Foundations and Effective Algorithms for Policy-Aware Simulator Learning
- arxiv url: http://arxiv.org/abs/2605.29032v1
- Date: Wed, 27 May 2026 19:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.347131
- Title: Theoretical Foundations and Effective Algorithms for Policy-Aware Simulator Learning
- Title(参考訳): 政策対応型シミュレータ学習のための理論的基礎と効果的なアルゴリズム
- Authors: Christoph Dann, Yishay Mansour, Mehryar Mohri,
- Abstract要約: 本稿では,モデルプレイヤと逆ポリシープレイヤのゼロサムミニマックスゲームを提案する。
提案手法は,戦略的に重要な領域における予測誤差を1.5$-$2.2times$に減らし,シミュレーションで純粋に訓練されたポリシーを最適に近い実世界の性能に適合させることができることを示す。
- 参考スコア(独自算出の注目度): 65.62918039166772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) agents typically learn world models by minimizing predictive loss. However, powerful RL optimizers inevitably exploit minor model inaccuracies, leading to simulator exploitation and a reality gap where policies succeed in simulation but fail in the real world. We propose that the objective for learning simulators should be strategic robustness rather than predictive accuracy, and formulate this as a zero-sum minimax game between a model player and an adversarial policy player. We provide a comprehensive theoretical analysis: (1) an online learning guarantee showing the game is learnable with sublinear regret bounds; (2) a tractable critic-based simplification bounding the global policy-value gap by the local critic's loss; and (3) an Error-MDP duality, proving that finding the worst-case policy is formally dual to a standard RL problem where the reward is the one-step critic error. This duality yields a provably convergent active data selection algorithm. Experiments on continuous control tasks demonstrate that our approach reduces prediction error in strategically important regions by $1.5$-$2.2\times$ and enables policies trained purely in simulation to match near-optimal real-world performance.
- Abstract(参考訳): モデルベース強化学習(MBRL)エージェントは通常、予測損失を最小限にして世界モデルを学習する。
しかし、強力なRLオプティマイザは必然的にマイナーモデルの不正確さを悪用し、シミュレーションの活用と、実際の世界ではポリシーが成功するが失敗する現実的なギャップをもたらす。
本稿では,シミュレータの学習目的が,予測精度よりも戦略的ロバスト性であること,モデルプレイヤと敵ポリシープレイヤのゼロサムミニマックスゲームとして定式化することを提案する。
本稿では,(1)ゲームがサブ線形後悔境界で学習可能であることを示すオンライン学習保証,(2)地域批評家の損失によるグローバルな政策価値のギャップを限定するトラクタブルな批評家ベースの単純化,(3)最悪の政策の発見が1ステップの批判誤差である標準RL問題と正式に二重であることを証明したエラー-MDP双対性について,総合的な理論的分析を行う。
この双対性は、証明可能な収束能動データ選択アルゴリズムをもたらす。
連続制御タスクの実験では,戦略的に重要な領域における予測誤差を1.5$-$2.2\times$に削減し,シミュレーションで純粋に訓練されたポリシーを,ほぼ最適に近い実世界の性能に適合させることができる。
関連論文リスト
- Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning [11.183124892686239]
本稿では,モデルベースオフラインRLの新しいアプローチであるRobust Adversarial Model-Based Offline RL(RAMBO)を提案する。
保守性を達成するため、敵環境モデルに対して2プレイヤーゼロ和ゲームとして問題を定式化する。
我々は,オフラインRLベンチマークに対する我々のアプローチを評価し,我々のアプローチが技術性能の状態を達成できることを実証した。
論文 参考訳(メタデータ) (2022-04-26T20:42:14Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。