論文の概要: Distance Weighted Supervised Learning for Offline Interaction Data
- arxiv url: http://arxiv.org/abs/2304.13774v1
- Date: Wed, 26 Apr 2023 18:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 15:20:10.250815
- Title: Distance Weighted Supervised Learning for Offline Interaction Data
- Title(参考訳): オフラインインタラクションデータのための距離重み付き教師付き学習
- Authors: Joey Hejna, Jensen Gao, Dorsa Sadigh
- Abstract要約: オフラインデータから目標条件付きポリシーを学習するためのDWSL(Distance Weighted Supervised Learning)を導入する。
DWSLは、ブートストラップなしでオフライン学習に魅力的な特性であるデータ分散に制約された最適なポリシーに収束する。
高次元画像領域では、DWSLはゴール条件付きILアルゴリズムとRLアルゴリズムの両方の性能を上回っている。
- 参考スコア(独自算出の注目度): 12.464721918625612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential decision making algorithms often struggle to leverage different
sources of unstructured offline interaction data. Imitation learning (IL)
methods based on supervised learning are robust, but require optimal
demonstrations, which are hard to collect. Offline goal-conditioned
reinforcement learning (RL) algorithms promise to learn from sub-optimal data,
but face optimization challenges especially with high-dimensional data. To
bridge the gap between IL and RL, we introduce Distance Weighted Supervised
Learning or DWSL, a supervised method for learning goal-conditioned policies
from offline data. DWSL models the entire distribution of time-steps between
states in offline data with only supervised learning, and uses this
distribution to approximate shortest path distances. To extract a policy, we
weight actions by their reduction in distance estimates. Theoretically, DWSL
converges to an optimal policy constrained to the data distribution, an
attractive property for offline learning, without any bootstrapping. Across all
datasets we test, DWSL empirically maintains behavior cloning as a lower bound
while still exhibiting policy improvement. In high-dimensional image domains,
DWSL surpasses the performance of both prior goal-conditioned IL and RL
algorithms. Visualizations and code can be found at
https://sites.google.com/view/dwsl/home .
- Abstract(参考訳): シーケンシャルな意思決定アルゴリズムは、非構造化オフラインインタラクションデータの異なるソースを活用するのに苦労することが多い。
教師付き学習に基づく模倣学習(il)法は堅牢であるが、収集が難しい最適なデモンストレーションを必要とする。
オフライン目標条件強化学習(RL)アルゴリズムは準最適データから学習することを約束するが、特に高次元データでは最適化の課題に直面している。
ILとRLのギャップを埋めるために、オフラインデータからゴール条件付きポリシーを学習するための教師付き手法であるDWSL(Distance Weighted Supervised Learning)を導入する。
DWSLは、教師付き学習のみでオフラインデータの状態間の時間ステップ全体の分布をモデル化し、この分布を用いて最短経路距離を近似する。
政策を引き出すためには,距離推定の削減による行動の重み付けを行う。
理論的には、dwslはブートストラップなしでオフライン学習に魅力的な属性であるデータ分散に制約された最適なポリシーに収束する。
私たちがテストしたすべてのデータセットの中で、DWSLは政策改善を継続しながら、動作のクローン化を下位境界として実証的に維持します。
高次元画像領域では、DWSLはゴール条件付きILアルゴリズムとRLアルゴリズムの両方の性能を上回る。
可視化とコードはhttps://sites.google.com/view/dwsl/homeで見ることができる。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2022-10-16T21:24:53Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。