論文の概要: Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling
- arxiv url: http://arxiv.org/abs/2407.04285v1
- Date: Fri, 5 Jul 2024 06:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:21:30.715873
- Title: Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling
- Title(参考訳): ロバスト決定変換器:シーケンスモデリングによるオフラインRLにおけるデータの破壊に対処する
- Authors: Jiawei Xu, Rui Yang, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han,
- Abstract要約: センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
時間差分学習に基づく従来のオフラインRL手法は、データ破損時に決定変換器(DT)を過小評価する傾向にある。
本稿では,ロバスト決定変換器 (RDT) を提案する。
- 参考スコア(独自算出の注目度): 34.547551367941246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning policies from offline datasets through offline reinforcement learning (RL) holds promise for scaling data-driven decision-making and avoiding unsafe and costly online interactions. However, real-world data collected from sensors or humans often contains noise and errors, posing a significant challenge for existing offline RL methods. Our study indicates that traditional offline RL methods based on temporal difference learning tend to underperform Decision Transformer (DT) under data corruption, especially when the amount of data is limited. This suggests the potential of sequential modeling for tackling data corruption in offline RL. To further unleash the potential of sequence modeling methods, we propose Robust Decision Transformer (RDT) by incorporating several robust techniques. Specifically, we introduce Gaussian weighted learning and iterative data correction to reduce the effect of corrupted data. Additionally, we leverage embedding dropout to enhance the model's resistance to erroneous inputs. Extensive experiments on MoJoCo, KitChen, and Adroit tasks demonstrate RDT's superior performance under diverse data corruption compared to previous methods. Moreover, RDT exhibits remarkable robustness in a challenging setting that combines training-time data corruption with testing-time observation perturbations. These results highlight the potential of robust sequence modeling for learning from noisy or corrupted offline datasets, thereby promoting the reliable application of offline RL in real-world tasks.
- Abstract(参考訳): オフラインデータセットからオフライン強化学習(RL)を通じての学習ポリシは、データ駆動による意思決定のスケールアップと、安全でコストのかかるオンラインインタラクションの回避を約束する。
しかし、センサや人間から収集された実世界のデータには、しばしばノイズやエラーが含まれており、既存のオフラインRL手法には大きな課題がある。
本研究では、時間差分学習に基づく従来のオフラインRL手法は、特にデータ量に制限がある場合、データ破損時にDT(Decision Transformer)を過小評価する傾向にあることを示す。
これは、オフラインのRLでデータ破損に対処するためのシーケンシャルなモデリングの可能性を示している。
そこで本研究では,ロバスト決定変換器 (RDT) を提案する。
具体的には,ガウス重み付き学習と反復データ補正を導入し,劣化したデータの効果を低減する。
さらに、埋め込みドロップアウトを利用して、間違った入力に対するモデルの抵抗を高める。
MoJoCo、KitChen、Adroitタスクに関する大規模な実験は、RTTが従来の方法に比べて多種多様なデータ破損下での優れたパフォーマンスを示している。
さらに、RTTは、トレーニング時のデータ破損とテスト時の観察摂動を組み合わせた困難な環境で、顕著な堅牢性を示す。
これらの結果は、ノイズや破損したオフラインデータセットから学習するための堅牢なシーケンスモデリングの可能性を強調し、現実世界のタスクにおけるオフラインRLの信頼性の高い適用を促進する。
関連論文リスト
- Diverse Transformer Decoding for Offline Reinforcement Learning Using Financial Algorithmic Approaches [4.364595470673757]
Portfolio Beam Search (PBS) はビームサーチ (BS) の簡便な代替手段である
我々は、推論時に逐次復号アルゴリズムに統合される不確実性を考慮した多様化機構を開発する。
D4RLベンチマークにおけるPBSの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-13T15:51:46Z) - What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions [8.666879925570331]
実世界のオフラインデータセットは、しばしばセンサーの故障や悪意のある攻撃によるデータ破損にさらされる。
既存の手法は、破損したデータによって引き起こされる高い不確実性の下で堅牢なエージェントを学ぶのに苦労している。
オフラインRL(TRACER)に対するロバストな変分ベイズ推定法を提案する。
論文 参考訳(メタデータ) (2024-11-01T09:28:24Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - SRTFD: Scalable Real-Time Fault Diagnosis through Online Continual Learning [8.016378373626084]
現代の産業環境は、新しい断層タイプ、動的条件、大規模データを扱うことができ、最小限の事前情報でリアルタイムの応答を提供するFD手法を必要としている。
本稿では,3つの重要な手法を用いて,オンライン連続学習(OCL)を強化するスケーラブルなリアルタイム故障診断フレームワークSRTFDを提案する。
実世界のデータセットと2つの公開シミュレーションデータセットの実験は、SRTFDの有効性と、現代の産業システムにおいて高度でスケーラブルで正確な故障診断を提供する可能性を示している。
論文 参考訳(メタデータ) (2024-08-11T03:26:22Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Robust Offline Reinforcement Learning with Gradient Penalty and
Constraint Relaxation [38.95482624075353]
爆発するQ-関数に対処するために,学習値関数に対する勾配ペナルティを導入する。
次に、批判重み付き制約緩和による非最適行動に対する近接性制約を緩和する。
実験結果から,提案手法は方針制約付きオフラインRL法において,最適でない軌道を効果的に制御できることが示唆された。
論文 参考訳(メタデータ) (2022-10-19T11:22:36Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。