論文の概要: ConserWeightive Behavioral Cloning for Reliable Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.05158v1
- Date: Tue, 11 Oct 2022 05:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:17:52.768709
- Title: ConserWeightive Behavioral Cloning for Reliable Offline Reinforcement
Learning
- Title(参考訳): 信頼性の高いオフライン強化学習のためのConser Weightive Behavioral Cloning
- Authors: Tung Nguyen, Qinqing Zheng, Aditya Grover
- Abstract要約: オフライン強化学習(RL)の目標は、静的なログ付きデータセットからほぼ最適なポリシを学ぶことで、高価なオンラインインタラクションをサイドステッピングすることにある。
行動クローン(BC)は、教師あり学習を通じてオフラインの軌跡を模倣することで、オフラインRLに対する簡単なソリューションを提供する。
オフラインRLにおける条件付きBCの性能を向上させるために,ConserWeightive Behavioral Cloning (CWBC)を提案する。
- 参考スコア(独自算出の注目度): 27.322942155582687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of offline reinforcement learning (RL) is to learn near-optimal
policies from static logged datasets, thus sidestepping expensive online
interactions. Behavioral cloning (BC) provides a straightforward solution to
offline RL by mimicking offline trajectories via supervised learning. Recent
advances (Chen et al., 2021; Janner et al., 2021; Emmons et al., 2021) have
shown that by conditioning on desired future returns, BC can perform
competitively to their value-based counterparts, while enjoying much more
simplicity and training stability. However, the distribution of returns in the
offline dataset can be arbitrarily skewed and suboptimal, which poses a unique
challenge for conditioning BC on expert returns at test time. We propose
ConserWeightive Behavioral Cloning (CWBC), a simple and effective method for
improving the performance of conditional BC for offline RL with two key
components: trajectory weighting and conservative regularization. Trajectory
weighting addresses the bias-variance tradeoff in conditional BC and provides a
principled mechanism to learn from both low return trajectories (typically
plentiful) and high return trajectories (typically few). Further, we analyze
the notion of conservatism in existing BC methods, and propose a novel
conservative regularize that explicitly encourages the policy to stay close to
the data distribution. The regularizer helps achieve more reliable performance,
and removes the need for ad-hoc tuning of the conditioning value during
evaluation. We instantiate CWBC in the context of Reinforcement Learning via
Supervised Learning (RvS) (Emmons et al., 2021) and Decision Transformer (DT)
(Chen et al., 2021), and empirically show that it significantly boosts the
performance and stability of prior methods on various offline RL benchmarks.
Code is available at https://github.com/tung-nd/cwbc.
- Abstract(参考訳): オフライン強化学習(RL)の目標は、静的なログ付きデータセットからほぼ最適なポリシを学ぶことで、高価なオンラインインタラクションをサイドステッピングすることだ。
行動クローン(BC)は、教師あり学習を通じてオフラインの軌跡を模倣することで、オフラインRLに対する簡単なソリューションを提供する。
近年の進歩(Chen et al., 2021; Janner et al., 2021; Emmons et al., 2021)は、望まれる将来のリターンを条件づけることで、BCはよりシンプルで訓練の安定性を享受しつつ、価値ベースのリターンと競争力を発揮することを示した。
しかし、オフラインデータセットにおけるリターンの分布は任意に歪め、最適化されるため、テスト時に専門家のリターンを条件付けるのに特有の課題となる。
CWBC(Conser Weightive Behavioral Cloning)は、軌道重み付けと保守的正規化という2つの重要な要素を持つオフラインRLの条件付きBCCの性能を改善するための、シンプルで効果的な手法である。
軌道重み付けは条件付きbcにおけるバイアス分散トレードオフに対処し、低リターン軌道(典型的には豊富)と高リターン軌道(典型的には少数)の両方から学ぶための原理的なメカニズムを提供する。
さらに,既存のBC法における保守主義の概念を解析し,データ分布に近い政策を明示的に奨励する新たな保守的正規化を提案する。
このレギュラライザは、より信頼性の高いパフォーマンスを実現し、評価中に条件付け値のアドホックなチューニングの必要性をなくす。
我々は,Reinforcement Learning via Supervised Learning (RvS) (Emmons et al., 2021) とDecision Transformer (DT) (Chen et al., 2021) の文脈でCWBCをインスタンス化する。
コードはhttps://github.com/tung-nd/cwbcで入手できる。
関連論文リスト
- From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
ビヘイビアクローン(BC)は印象的な機能を実現しているが、アセンブリのようなオブジェクトの正確な整合と挿入を必要とするタスクに対する信頼性の高いポリシーを学ぶには、模倣が不十分である。
ResiP(Residual for Precise Manipulation)は、RLで訓練された完全閉ループ残差ポリシで、凍結したチャンクされたBCモデルを拡張することで、これらの課題をサイドステップで進める。
高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning [7.462336024223669]
主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
論文 参考訳(メタデータ) (2022-11-21T19:10:27Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。