論文の概要: Robust Policy Expansion for Offline-to-Online RL under Diverse Data Corruption
- arxiv url: http://arxiv.org/abs/2509.24748v1
- Date: Mon, 29 Sep 2025 13:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.997643
- Title: Robust Policy Expansion for Offline-to-Online RL under Diverse Data Corruption
- Title(参考訳): 分散型データ破壊下におけるオフラインRLのロバストポリシ拡張
- Authors: Longxiang He, Deheng Ye, Junbo Tan, Xueqian Wang, Li Shen,
- Abstract要約: Offline-to-Online Reinforcement Learning (O2O RL)は、現実世界のRLデプロイメントにおいて有望なパラダイムとして登場した。
データ破損はポリシーの重大な振る舞いを誘発し、それによってオンライン探索の効率を大幅に低下させる。
我々は、$textbfRPEX$: $textbfR$obust $textbfP$olicy $textbfEX$pansionという新しい、シンプルで効果的なメソッドを提案する。
- 参考スコア(独自算出の注目度): 26.419116283028078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining a policy on offline data followed by fine-tuning through online interactions, known as Offline-to-Online Reinforcement Learning (O2O RL), has emerged as a promising paradigm for real-world RL deployment. However, both offline datasets and online interactions in practical environments are often noisy or even maliciously corrupted, severely degrading the performance of O2O RL. Existing works primarily focus on mitigating the conservatism of offline policies via online exploration, while the robustness of O2O RL under data corruption, including states, actions, rewards, and dynamics, is still unexplored. In this work, we observe that data corruption induces heavy-tailed behavior in the policy, thereby substantially degrading the efficiency of online exploration. To address this issue, we incorporate Inverse Probability Weighted (IPW) into the online exploration policy to alleviate heavy-tailedness, and propose a novel, simple yet effective method termed $\textbf{RPEX}$: $\textbf{R}$obust $\textbf{P}$olicy $\textbf{EX}$pansion. Extensive experimental results on D4RL datasets demonstrate that RPEX achieves SOTA O2O performance across a wide range of data corruption scenarios. Code is available at $\href{https://github.com/felix-thu/RPEX}{https://github.com/felix-thu/RPEX}$.
- Abstract(参考訳): オフラインデータに対するポリシの事前トレーニングと、オフラインからオンラインへの強化学習(O2O RL)と呼ばれるオンラインインタラクションによる微調整が、現実のRLデプロイメントにおいて有望なパラダイムとして登場した。
しかし、実環境におけるオフラインのデータセットとオンラインのインタラクションは、しばしばうるさいか悪意的に破損し、O2O RLの性能を著しく劣化させる。
既存の作業は、主にオンライン探索を通じてオフラインポリシーの保守性を軽減することに焦点を当てているが、状態、アクション、報酬、ダイナミクスを含むデータ汚職下でのO2O RLの堅牢性はまだ探索されていない。
本研究は,データ破損が政策の重み付け行動を引き起こすことを観察し,オンライン探索の効率を著しく低下させる。
この問題に対処するために、Inverse Probability Weighted (IPW) をオンライン探索ポリシーに組み込んで、重い尾行を緩和し、$\textbf{RPEX}$: $\textbf{R}$obust $\textbf{P}$olicy $\textbf{EX}$pansionと呼ばれる新しい、シンプルで効果的なメソッドを提案する。
D4RLデータセットの大規模な実験結果は、RPEXが幅広いデータ破損シナリオでSOTA O2O性能を達成することを示した。
コードは$\href{https://github.com/felix-thu/RPEX}{https://github.com/felix-thu/RPEX}$で入手できる。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy [12.589890916332196]
オフラインからオフライン(O2O)のRLを利用することで、より高速で安全なオンラインポリシ学習が可能になる。
我々は,O2OセーフなRLのための新しいフレームワークであるtextbfMarvelを紹介した。
我々の研究は、より効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-12-05T18:51:18Z) - Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。