論文の概要: Sparse Offline Reinforcement Learning with Corruption Robustness
- arxiv url: http://arxiv.org/abs/2512.24768v1
- Date: Wed, 31 Dec 2025 10:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.62448
- Title: Sparse Offline Reinforcement Learning with Corruption Robustness
- Title(参考訳): 破壊ロバスト性を考慮したスパースオフライン強化学習
- Authors: Nam Phuong Tran, Andi Nika, Goran Radanovic, Long Tran-Thanh, Debmalya Mandal,
- Abstract要約: オフラインスパース強化学習(RL)における強データ破損に対する堅牢性の検討
我々の設定では、敵は高次元だがスパースなマルコフ決定過程から収集された軌道のごく一部を任意に摂動することができる。
本研究は, 高次元スパースMDPにおいて, 単一政治中心性カバレッジと汚職を伴う非空洞性保証を初めて提供するものである。
- 参考スコア(独自算出の注目度): 24.193236728009918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate robustness to strong data corruption in offline sparse reinforcement learning (RL). In our setting, an adversary may arbitrarily perturb a fraction of the collected trajectories from a high-dimensional but sparse Markov decision process, and our goal is to estimate a near optimal policy. The main challenge is that, in the high-dimensional regime where the number of samples $N$ is smaller than the feature dimension $d$, exploiting sparsity is essential for obtaining non-vacuous guarantees but has not been systematically studied in offline RL. We analyse the problem under uniform coverage and sparse single-concentrability assumptions. While Least Square Value Iteration (LSVI), a standard approach for robust offline RL, performs well under uniform coverage, we show that integrating sparsity into LSVI is unnatural, and its analysis may break down due to overly pessimistic bonuses. To overcome this, we propose actor-critic methods with sparse robust estimator oracles, which avoid the use of pointwise pessimistic bonuses and provide the first non-vacuous guarantees for sparse offline RL under single-policy concentrability coverage. Moreover, we extend our results to the contaminated setting and show that our algorithm remains robust under strong contamination. Our results provide the first non-vacuous guarantees in high-dimensional sparse MDPs with single-policy concentrability coverage and corruption, showing that learning a near-optimal policy remains possible in regimes where traditional robust offline RL techniques may fail.
- Abstract(参考訳): オフラインスパース強化学習(RL)における強データ破損に対する堅牢性について検討した。
我々の設定では、敵は高次元だがスパースなマルコフ決定過程から収集された軌道のごく一部を任意に摂動させ、我々の目標は、ほぼ最適な政策を推定することである。
主な課題は、サンプル数$N$が特徴次元$d$よりも小さい高次元の状態では、空でない保証を得るには空間性を利用することが不可欠であるが、オフラインのRLでは体系的に研究されていないことである。
我々は、一様カバレッジとスパース単集中性仮定の下で問題を解析する。
堅牢なオフラインRLの標準手法であるLast Square Value Iteration (LSVI) は、均一なカバレッジ下では良好に機能するが、LSVIへのスペーサリティの統合は不自然であり、過度に悲観的なボーナスのためにその分析が破綻する可能性がある。
そこで本稿では, 個別の政治中心性カバレッジ下での, 疎密なオフラインRLに対する初となる非空き保証を実現するために, 疎密なロバストなオラクルを用いたアクタ批判手法を提案する。
さらに, 実験結果を汚染条件まで拡張し, 強い汚染条件下では, アルゴリズムが頑健であることを示す。
その結果,従来のロバストなオフラインRL技術が失敗する状況下では,単一政治中心性カバレッジと汚職を伴う高次元スパースMDPにおいて,ほぼ最適政策の学習が可能であることが示唆された。
関連論文リスト
- Enhancing Robustness of Offline Reinforcement Learning Under Data Corruption via Sharpness-Aware Minimization [9.524029391786557]
実世界のデータ破損に弱いオフラインの強化学習。
我々はまず,オフラインRLのための汎用プラグアンドプレイとしてSharpness-Aware Minimization (SAM)を適用する。
IQLは、最高パフォーマンスのオフラインRLアルゴリズムであり、RIQLは、データ破壊の堅牢性のために特別に設計されたアルゴリズムです。
論文 参考訳(メタデータ) (2025-11-14T06:11:13Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。
本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。
さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文 参考訳(メタデータ) (2024-11-12T03:22:56Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。