論文の概要: Scaling Online Distributionally Robust Reinforcement Learning: Sample-Efficient Guarantees with General Function Approximation
- arxiv url: http://arxiv.org/abs/2512.18957v1
- Date: Mon, 22 Dec 2025 02:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.577391
- Title: Scaling Online Distributionally Robust Reinforcement Learning: Sample-Efficient Guarantees with General Function Approximation
- Title(参考訳): オンライン分散ロバスト強化学習のスケーリング:一般関数近似を用いたサンプル効率の保証
- Authors: Debamita Ghosh, George K. Atia, Yue Wang,
- Abstract要約: 分散ロバストなRL(DR-RL)は、不確実な遷移ダイナミクスの集合に対して最悪の性能を最適化することでこの問題に対処する。
本稿では,環境との相互作用によって最適なロバストポリシーを純粋に学習する一般関数近似を用いたオンラインDR-RLアルゴリズムを提案する。
本研究では,全変量不確実性セットの下でほぼ最適準線形後悔境界を確立する理論解析を行い,本手法の有効性と有効性を示す。
- 参考スコア(独自算出の注目度): 18.596128578766958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of reinforcement learning (RL) agents in real-world applications is often hindered by performance degradation caused by mismatches between training and deployment environments. Distributionally robust RL (DR-RL) addresses this issue by optimizing worst-case performance over an uncertainty set of transition dynamics. However, existing work typically relies on substantial prior knowledge-such as access to a generative model or a large offline dataset-and largely focuses on tabular methods that do not scale to complex domains. We overcome these limitations by proposing an online DR-RL algorithm with general function approximation that learns an optimal robust policy purely through interaction with the environment, without requiring prior models or offline data, enabling deployment in high-dimensional tasks. We further provide a theoretical analysis establishing a near-optimal sublinear regret bound under a total variation uncertainty set, demonstrating the sample efficiency and effectiveness of our method.
- Abstract(参考訳): 実世界のアプリケーションにおける強化学習(RL)エージェントの展開は、トレーニング環境とデプロイメント環境のミスマッチに起因するパフォーマンス劣化によって妨げられることが多い。
分散ロバストなRL(DR-RL)は、不確実な遷移ダイナミクスの集合に対して最悪の性能を最適化することでこの問題に対処する。
しかしながら、既存の作業は一般的に、生成モデルや大規模なオフラインデータセットへのアクセスなど、かなり事前の知識に依存しており、多くの場合、複雑なドメインにスケールしない表形式のメソッドに重点を置いています。
我々は,従来のモデルやオフラインデータを必要とせず,環境との相互作用を通じて純粋に最適なロバストポリシを学習し,高次元タスクへの展開を可能にする汎用関数近似を用いたオンラインDR-RLアルゴリズムを提案することにより,これらの制限を克服する。
さらに,本手法のサンプル効率と有効性を実証し,全変量不確かさセットの下でほぼ最適準線形後悔境界を確立する理論的解析を行った。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - Provably Near-Optimal Distributionally Robust Reinforcement Learning in Online Settings [10.983897709591885]
強化学習(Reinforcement Learning, RL)は、実世界のデプロイにおいて、sim-to-realギャップによって大きな課題に直面している。
我々は、エージェントが未知のトレーニング環境のみと対話するオンライン分散ロバストなRLの、より現実的で挑戦的な設定について研究する。
本稿では,最小限の仮定で線形後悔を保証する計算効率のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-05T03:36:50Z) - Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。
関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。
その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文 参考訳(メタデータ) (2024-03-14T17:55:10Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。