論文の概要: Sparse Offline Reinforcement Learning with Corruption Robustness
- arxiv url: http://arxiv.org/abs/2512.24768v1
- Date: Wed, 31 Dec 2025 10:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.62448
- Title: Sparse Offline Reinforcement Learning with Corruption Robustness
- Title(参考訳): 破壊ロバスト性を考慮したスパースオフライン強化学習
- Authors: Nam Phuong Tran, Andi Nika, Goran Radanovic, Long Tran-Thanh, Debmalya Mandal,
- Abstract要約: オフラインスパース強化学習(RL)における強データ破損に対する堅牢性の検討
我々の設定では、敵は高次元だがスパースなマルコフ決定過程から収集された軌道のごく一部を任意に摂動することができる。
本研究は, 高次元スパースMDPにおいて, 単一政治中心性カバレッジと汚職を伴う非空洞性保証を初めて提供するものである。
- 参考スコア(独自算出の注目度): 24.193236728009918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate robustness to strong data corruption in offline sparse reinforcement learning (RL). In our setting, an adversary may arbitrarily perturb a fraction of the collected trajectories from a high-dimensional but sparse Markov decision process, and our goal is to estimate a near optimal policy. The main challenge is that, in the high-dimensional regime where the number of samples $N$ is smaller than the feature dimension $d$, exploiting sparsity is essential for obtaining non-vacuous guarantees but has not been systematically studied in offline RL. We analyse the problem under uniform coverage and sparse single-concentrability assumptions. While Least Square Value Iteration (LSVI), a standard approach for robust offline RL, performs well under uniform coverage, we show that integrating sparsity into LSVI is unnatural, and its analysis may break down due to overly pessimistic bonuses. To overcome this, we propose actor-critic methods with sparse robust estimator oracles, which avoid the use of pointwise pessimistic bonuses and provide the first non-vacuous guarantees for sparse offline RL under single-policy concentrability coverage. Moreover, we extend our results to the contaminated setting and show that our algorithm remains robust under strong contamination. Our results provide the first non-vacuous guarantees in high-dimensional sparse MDPs with single-policy concentrability coverage and corruption, showing that learning a near-optimal policy remains possible in regimes where traditional robust offline RL techniques may fail.
- Abstract(参考訳): オフラインスパース強化学習(RL)における強データ破損に対する堅牢性について検討した。
我々の設定では、敵は高次元だがスパースなマルコフ決定過程から収集された軌道のごく一部を任意に摂動させ、我々の目標は、ほぼ最適な政策を推定することである。
主な課題は、サンプル数$N$が特徴次元$d$よりも小さい高次元の状態では、空でない保証を得るには空間性を利用することが不可欠であるが、オフラインのRLでは体系的に研究されていないことである。
我々は、一様カバレッジとスパース単集中性仮定の下で問題を解析する。
堅牢なオフラインRLの標準手法であるLast Square Value Iteration (LSVI) は、均一なカバレッジ下では良好に機能するが、LSVIへのスペーサリティの統合は不自然であり、過度に悲観的なボーナスのためにその分析が破綻する可能性がある。
そこで本稿では, 個別の政治中心性カバレッジ下での, 疎密なオフラインRLに対する初となる非空き保証を実現するために, 疎密なロバストなオラクルを用いたアクタ批判手法を提案する。
さらに, 実験結果を汚染条件まで拡張し, 強い汚染条件下では, アルゴリズムが頑健であることを示す。
その結果,従来のロバストなオフラインRL技術が失敗する状況下では,単一政治中心性カバレッジと汚職を伴う高次元スパースMDPにおいて,ほぼ最適政策の学習が可能であることが示唆された。
関連論文リスト
- Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。