論文の概要: Towards Robust Offline Reinforcement Learning under Diverse Data
Corruption
- arxiv url: http://arxiv.org/abs/2310.12955v1
- Date: Thu, 19 Oct 2023 17:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:44:04.034834
- Title: Towards Robust Offline Reinforcement Learning under Diverse Data
Corruption
- Title(参考訳): 多様なデータ破壊下でのロバストオフライン強化学習に向けて
- Authors: Rui Yang, Han Zhong, Jiawei Xu, Amy Zhang, Chongjie Zhang, Lei Han,
Tong Zhang
- Abstract要約: 暗黙的なQ-ラーニング(IQL)は、様々なオフラインRLアルゴリズムにおいて、データの破損に対して顕著なレジリエンスを示す。
より堅牢なオフラインRLアプローチであるRobust IQL(RIQL)を提案する。
- 参考スコア(独自算出の注目度): 46.16052026620402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) presents a promising approach for
learning reinforced policies from offline datasets without the need for costly
or unsafe interactions with the environment. However, datasets collected by
humans in real-world environments are often noisy and may even be maliciously
corrupted, which can significantly degrade the performance of offline RL. In
this work, we first investigate the performance of current offline RL
algorithms under comprehensive data corruption, including states, actions,
rewards, and dynamics. Our extensive experiments reveal that implicit
Q-learning (IQL) demonstrates remarkable resilience to data corruption among
various offline RL algorithms. Furthermore, we conduct both empirical and
theoretical analyses to understand IQL's robust performance, identifying its
supervised policy learning scheme as the key factor. Despite its relative
robustness, IQL still suffers from heavy-tail targets of Q functions under
dynamics corruption. To tackle this challenge, we draw inspiration from robust
statistics to employ the Huber loss to handle the heavy-tailedness and utilize
quantile estimators to balance penalization for corrupted data and learning
stability. By incorporating these simple yet effective modifications into IQL,
we propose a more robust offline RL approach named Robust IQL (RIQL). Extensive
experiments demonstrate that RIQL exhibits highly robust performance when
subjected to diverse data corruption scenarios.
- Abstract(参考訳): オフライン強化学習(rl)は、コストのかかる、あるいは安全でない環境とのインタラクションを必要とせずに、オフラインデータセットから強化されたポリシーを学ぶための有望なアプローチを提供する。
しかし、実際の環境で人間が収集したデータセットは、しばしば騒々しく、悪質に悪用されることもあり、オフラインのRLの性能を著しく低下させる可能性がある。
本研究では,現状のオフラインrlアルゴリズムの性能を,状態,動作,報酬,ダイナミクスを含む総合的データ破損下で調査する。
我々の広範な実験により、暗黙のq-learning(iql)が様々なオフラインrlアルゴリズムにおけるデータ破損に対する顕著なレジリエンスを示していることが明らかとなった。
さらに、IQLのロバストなパフォーマンスを理解するために、実証的および理論的両方の分析を行い、その教師付きポリシー学習スキームを重要な要素とみなす。
相対的な堅牢性にもかかわらず、iqlはダイナミクス破壊下でq関数のヘビーテールターゲットに苦しめられている。
この課題に取り組むために,我々は,ヘビーテールネスを扱うためにフーバーロスを活用し,腐敗したデータに対するペナライゼーションと学習安定性のバランスをとるために,質的推定器を活用するためのロバストな統計からインスピレーションを得た。
これらの単純で効果的な修正をIQLに組み込むことで、ロバストIQL(RIQL)というより堅牢なオフラインRLアプローチを提案する。
大規模な実験により、RIQLはさまざまなデータ破損シナリオで非常に堅牢なパフォーマンスを示します。
関連論文リスト
- Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Offline Reinforcement Learning with Imbalanced Datasets [23.454333727200623]
実世界のオフライン強化学習(RL)データセットは、探索や安全性の考慮が難しいため、状態空間上で不均衡になることが多い。
保守的なQ-ラーニング(CQL)のような分散制約に基づくオフラインのRL手法は、不均衡なデータセットの下でポリシーを抽出するのに効果がないことを示す。
自然知性に触発されて、CQLの強化と検索プロセスを利用して、過去の経験を思い出す新しいオフラインRL法を提案する。
論文 参考訳(メタデータ) (2023-07-06T03:22:19Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。