論文の概要: Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories
- arxiv url: http://arxiv.org/abs/2210.06518v3
- Date: Thu, 22 Jun 2023 16:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 18:01:28.336956
- Title: Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories
- Title(参考訳): アクションフリートラジェクタを用いた半教師付きオフライン強化学習
- Authors: Qinqing Zheng, Mikael Henaff, Brandon Amos, Aditya Grover
- Abstract要約: 自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
- 参考スコア(独自算出の注目度): 37.14064734165109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural agents can effectively learn from multiple data sources that differ
in size, quality, and types of measurements. We study this heterogeneity in the
context of offline reinforcement learning (RL) by introducing a new,
practically motivated semi-supervised setting. Here, an agent has access to two
sets of trajectories: labelled trajectories containing state, action and reward
triplets at every timestep, along with unlabelled trajectories that contain
only state and reward information. For this setting, we develop and study a
simple meta-algorithmic pipeline that learns an inverse dynamics model on the
labelled data to obtain proxy-labels for the unlabelled data, followed by the
use of any offline RL algorithm on the true and proxy-labelled trajectories.
Empirically, we find this simple pipeline to be highly successful -- on several
D4RL benchmarks~\cite{fu2020d4rl}, certain offline RL algorithms can match the
performance of variants trained on a fully labelled dataset even when we label
only 10\% of trajectories which are highly suboptimal. To strengthen our
understanding, we perform a large-scale controlled empirical study
investigating the interplay of data-centric properties of the labelled and
unlabelled datasets, with algorithmic design choices (e.g., choice of inverse
dynamics, offline RL algorithm) to identify general trends and best practices
for training RL agents on semi-supervised offline datasets.
- Abstract(参考訳): 自然エージェントは、サイズ、品質、測定の種類が異なる複数のデータソースから効果的に学習することができる。
我々は,この不均一性をオフライン強化学習(rl)の文脈で検討する。
ここでエージェントは、状態と報酬情報のみを含むラベル付きトラジェクタリーとともに、各タイムステップで状態、行動、報酬トリプレットを含むラベル付きトラジェクタリーの2セットにアクセスできる。
本研究では,ラベル付きデータの逆ダイナミクスモデルを学習し,ラベル付きデータのプロキシラベルを得るシンプルなメタアルゴリズムパイプラインを開発し,その上で,trueおよびproxyラベル付きトラジェクタ上でオフラインrlアルゴリズムを用いた。
いくつかのd4rlベンチマーク --\cite{fu2020d4rl} では、特定のオフラインrlアルゴリズムは、非常に最適化された10\%のトラジェクタしかラベル付けしていない場合でも、完全なラベル付きデータセットでトレーニングされた変種のパフォーマンスにマッチする。
我々は,ラベル付きデータセットとラベル付きデータセットのデータ中心特性の相互作用を調査し,アルゴリズム設計の選択(逆ダイナミクスの選択,オフラインrlアルゴリズムなど)を用いて,半教師付きオフラインデータセット上でrlエージェントをトレーニングするための一般的な傾向とベストプラクティスを特定する。
関連論文リスト
- DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based
Trajectory Stitching [21.263554926053178]
オフライン強化学習(RL)では、学習ポリシーのパフォーマンスはオフラインデータセットの品質に大きく依存する。
本稿では拡散に基づく新しいデータ拡張パイプラインであるDiffStitchについて紹介する。
DiffStitchは、ローリワード軌道と高リワード軌道を効果的に接続し、オフラインRLアルゴリズムが直面する課題に対処するために、グローバルに最適な軌道を形成する。
論文 参考訳(メタデータ) (2024-02-04T10:30:23Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven
Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。