論文の概要: Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling
- arxiv url: http://arxiv.org/abs/2407.04285v3
- Date: Thu, 13 Feb 2025 03:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:46:13.661131
- Title: Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling
- Title(参考訳): オフライン強化学習におけるシーケンスモデリングによるデータの破壊処理
- Authors: Jiawei Xu, Rui Yang, Shuang Qiu, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han,
- Abstract要約: オフラインの強化学習は、データ駆動意思決定のスケーリングを約束する。
しかし、センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
我々の研究によると、データセットが制限された場合、先行研究はデータの破損の下では不十分である。
- 参考スコア(独自算出の注目度): 35.2859997591196
- License:
- Abstract: Learning policy from offline datasets through offline reinforcement learning (RL) holds promise for scaling data-driven decision-making while avoiding unsafe and costly online interactions. However, real-world data collected from sensors or humans often contains noise and errors, posing a significant challenge for existing offline RL methods, particularly when the real-world data is limited. Our study reveals that prior research focusing on adapting predominant offline RL methods based on temporal difference learning still falls short under data corruption when the dataset is limited. In contrast, we discover that vanilla sequence modeling methods, such as Decision Transformer, exhibit robustness against data corruption, even without specialized modifications. To unlock the full potential of sequence modeling, we propose Robust Decision Rransformer (RDT) by incorporating three simple yet effective robust techniques: embedding dropout to improve the model's robustness against erroneous inputs, Gaussian weighted learning to mitigate the effects of corrupted labels, and iterative data correction to eliminate corrupted data from the source. Extensive experiments on MuJoCo, Kitchen, and Adroit tasks demonstrate RDT's superior performance under various data corruption scenarios compared to prior methods. Furthermore, RDT exhibits remarkable robustness in a more challenging setting that combines training-time data corruption with test-time observation perturbations. These results highlight the potential of sequence modeling for learning from noisy or corrupted offline datasets, thereby promoting the reliable application of offline RL in real-world scenarios. Our code is available at https://github.com/jiawei415/RobustDecisionTransformer.
- Abstract(参考訳): オフラインデータセットからオフライン強化学習(RL)を通じての学習ポリシーは、安全でコストのかかるオンラインインタラクションを避けながら、データ駆動による意思決定のスケールアップを約束する。
しかし、センサや人間から収集された実世界のデータには、ノイズやエラーが頻繁に含まれており、特に実世界のデータが限られている場合、既存のオフラインRL手法には重大な課題がある。
本研究は, 時系列差分学習に基づくオフラインRL手法の適応に着目した先行研究が, データセットが限定された場合, データの破損下では依然として不足していることを示す。
対照的に、決定変換器のようなバニラシーケンスモデリング手法は、特別な修正を加えなくても、データの破損に対して堅牢性を示す。
シーケンスモデリングの潜在能力を最大限に活用するために,提案するRobust Decision Rransformer (RDT) は,不正な入力に対するモデルの堅牢性を改善するためにドロップアウトを埋め込み,ガウス重み付き学習によりラベルの破損を軽減し,ソースから破損したデータを除去する反復データ補正という,シンプルで効果的なロバストな3つの手法を取り入れて提案する。
MuJoCo、Kitchen、Adroitタスクに関する大規模な実験は、様々なデータ破損シナリオ下でのRTTの優れたパフォーマンスを以前の方法と比較している。
さらに、RTTは、トレーニング時のデータ破損とテスト時の観察摂動を組み合わせた、より困難な環境で顕著な堅牢性を示す。
これらの結果は、ノイズや破損したオフラインデータセットから学習するためのシーケンスモデリングの可能性を強調し、現実のシナリオにおけるオフラインRLの信頼性の高い適用を促進する。
私たちのコードはhttps://github.com/jiawei415/RobustDecisionTransformerで利用可能です。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - SRTFD: Scalable Real-Time Fault Diagnosis through Online Continual Learning [8.016378373626084]
現代の産業環境は、新しい断層タイプ、動的条件、大規模データを扱うことができ、最小限の事前情報でリアルタイムの応答を提供するFD手法を必要としている。
本稿では,3つの重要な手法を用いて,オンライン連続学習(OCL)を強化するスケーラブルなリアルタイム故障診断フレームワークSRTFDを提案する。
実世界のデータセットと2つの公開シミュレーションデータセットの実験は、SRTFDの有効性と、現代の産業システムにおいて高度でスケーラブルで正確な故障診断を提供する可能性を示している。
論文 参考訳(メタデータ) (2024-08-11T03:26:22Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Robust Offline Reinforcement Learning with Gradient Penalty and
Constraint Relaxation [38.95482624075353]
爆発するQ-関数に対処するために,学習値関数に対する勾配ペナルティを導入する。
次に、批判重み付き制約緩和による非最適行動に対する近接性制約を緩和する。
実験結果から,提案手法は方針制約付きオフラインRL法において,最適でない軌道を効果的に制御できることが示唆された。
論文 参考訳(メタデータ) (2022-10-19T11:22:36Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。