論文の概要: Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data
- arxiv url: http://arxiv.org/abs/2210.08642v1
- Date: Sun, 16 Oct 2022 21:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 15:53:01.496435
- Title: Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data
- Title(参考訳): 制限データを用いたオフライン強化学習のためのデータ効率のよいパイプライン
- Authors: Allen Nie, Yannis Flet-Berliac, Deon R. Jordan, William Steenbergen,
Emma Brunskill
- Abstract要約: オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
- 参考スコア(独自算出の注目度): 28.846826115837825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) can be used to improve future performance
by leveraging historical data. There exist many different algorithms for
offline RL, and it is well recognized that these algorithms, and their
hyperparameter settings, can lead to decision policies with substantially
differing performance. This prompts the need for pipelines that allow
practitioners to systematically perform algorithm-hyperparameter selection for
their setting. Critically, in most real-world settings, this pipeline must only
involve the use of historical data. Inspired by statistical model selection
methods for supervised learning, we introduce a task- and method-agnostic
pipeline for automatically training, comparing, selecting, and deploying the
best policy when the provided dataset is limited in size. In particular, our
work highlights the importance of performing multiple data splits to produce
more reliable algorithm-hyperparameter selection. While this is a common
approach in supervised learning, to our knowledge, this has not been discussed
in detail in the offline RL setting. We show it can have substantial impacts
when the dataset is small. Compared to alternate approaches, our proposed
pipeline outputs higher-performing deployed policies from a broad range of
offline policy learning algorithms and across various simulation domains in
healthcare, education, and robotics. This work contributes toward the
development of a general-purpose meta-algorithm for automatic
algorithm-hyperparameter selection for offline RL.
- Abstract(参考訳): オフライン強化学習(RL)は,過去のデータを活用することで,今後のパフォーマンス向上に有効である。
オフラインRLには多くの異なるアルゴリズムが存在するが、これらのアルゴリズムとそのハイパーパラメータ設定は、かなり異なる性能で決定ポリシーを導出できるとよく認識されている。
これにより、実践者が設定のためにアルゴリズム-ハイパーパラメータ選択を体系的に実行できるようにするパイプラインの必要性が高まる。
批判的に、ほとんどの現実世界の設定では、このパイプラインは履歴データの使用のみを伴わなければならない。
教師付き学習のための統計モデル選択法に着想を得て,提案するデータセットのサイズが制限された場合に,最適なポリシを自動訓練,比較,選択,展開するためのタスク・メソッドに依存しないパイプラインを導入する。
特に、より信頼性の高いアルゴリズム-ハイパーパラメータ選択を生成するために、複数のデータ分割を実行することの重要性を強調します。
これは教師あり学習において一般的なアプローチであるが、我々の知識では、オフラインのRL設定では詳細は議論されていない。
データセットが小さい場合には、大きな影響を与える可能性がある。
従来のアプローチと比較して,オフラインポリシ学習アルゴリズムや,医療,教育,ロボティクスといったさまざまなシミュレーションドメインから,高いパフォーマンスの展開ポリシを出力します。
本研究は,オフラインrlのためのアルゴリズムハイパーパラメータ自動選択のための汎用メタアルゴリズムの開発に寄与する。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - Launchpad: Learning to Schedule Using Offline and Online RL Methods [9.488752723308954]
既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
論文 参考訳(メタデータ) (2022-12-01T16:40:11Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。