論文の概要: Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2510.14246v1
- Date: Thu, 16 Oct 2025 02:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.690344
- Title: Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた正規化分布ロバストマルコフ決定過程
- Authors: Jingwen Gu, Yiting He, Zhishuai Liu, Pan Xu,
- Abstract要約: 分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
- 参考スコア(独自算出の注目度): 10.35045003737115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making under distribution shift is a central challenge in reinforcement learning (RL), where training and deployment environments differ. We study this problem through the lens of robust Markov decision processes (RMDPs), which optimize performance against adversarial transition dynamics. Our focus is the online setting, where the agent has only limited interaction with the environment, making sample efficiency and exploration especially critical. Policy optimization, despite its success in standard RL, remains theoretically and empirically underexplored in robust RL. To bridge this gap, we propose \textbf{D}istributionally \textbf{R}obust \textbf{R}egularized \textbf{P}olicy \textbf{O}ptimization algorithm (DR-RPO), a model-free online policy optimization method that learns robust policies with sublinear regret. To enable tractable optimization within the softmax policy class, DR-RPO incorporates reference-policy regularization, yielding RMDP variants that are doubly constrained in both transitions and policies. To scale to large state-action spaces, we adopt the $d$-rectangular linear MDP formulation and combine linear function approximation with an upper confidence bonus for optimistic exploration. We provide theoretical guarantees showing that policy optimization can achieve polynomial suboptimality bounds and sample efficiency in robust RL, matching the performance of value-based approaches. Finally, empirical results across diverse domains corroborate our theory and demonstrate the robustness of DR-RPO.
- Abstract(参考訳): 分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
我々は, 対向遷移力学に対する性能を最適化するロバストマルコフ決定過程 (RMDP) のレンズを用いてこの問題を研究する。
我々の焦点は、エージェントが環境との限られた相互作用しか持たないオンライン環境であり、特にサンプル効率と探索が重要である。
標準的なRLの成功にもかかわらず、政策最適化は理論上も経験的にもロバストなRLで過小評価されている。
このギャップを埋めるために、モデルなしオンラインポリシー最適化手法である、サブ線形後悔を伴う堅牢なポリシーを学習する、モデルなしオンラインポリシー最適化手法である、モデルなしオンラインポリシー最適化アルゴリズム(DR-RPO)を提案する。
DR-RPOは、ソフトマックスポリシークラス内でのトラクタブルな最適化を可能にするため、参照-ポリティ正規化を導入し、遷移とポリシーの両方で二重に制約されたRMDPの変種を生成する。
大規模状態対応空間にスケールするために,$d$矩形線形MDPの定式化を採用し,線形関数近似と高信頼ボーナスを組み合わせて楽観的な探索を行う。
我々は,ロバストなRLにおいて,ポリシ最適化が多項式の最適値境界とサンプル効率を達成できることを理論的に保証し,値に基づくアプローチの性能に適合することを示す。
最後に、様々な領域にわたる実証結果が我々の理論を裏付け、DR-RPOの堅牢性を示す。
関連論文リスト
- Mirror Descent Policy Optimisation for Robust Constrained Markov Decision Processes [11.162988605397734]
本稿では、ロバスト制約付きマルコフ決定過程(RCMDP)に対するミラー降下ポリシーの最適化について述べる。
我々は政策勾配法を用いて、制約されたMDPを表すラグランジアン上のポリシー(最大値)と遷移カーネル(最小値)の両方を最適化する。
実験は、制約付きおよび制約なしの最適化におけるミラー降下ポリシー最適化の利点を確認し、ロバストネステストで顕著な改善が観察された。
論文 参考訳(メタデータ) (2025-06-29T09:55:52Z) - Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Policy Gradient for Robust Markov Decision Processes [16.281897051782863]
本稿では、ロバストなマルコフ決定過程(MDP)を解くために、新しいポリシー勾配法であるダブルループロバストポリシーミラーDescent(MD)を提案する。
MDは、イテレーション毎の適応耐性を持つポリシー最適化に一般的なミラー降下更新ルールを採用し、グローバルな最適ポリシーへの収束を保証する。
我々は,直接パラメータ化とソフトマックスパラメータ化の両方の下での新しい収束結果を含むMDの包括的解析を行い,トランジションミラー・アセンション(TMA)による内部問題の解に対する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-29T15:16:02Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。