論文の概要: Representation Matters: Offline Pretraining for Sequential Decision
Making
- arxiv url: http://arxiv.org/abs/2102.05815v1
- Date: Thu, 11 Feb 2021 02:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-13 03:54:06.698065
- Title: Representation Matters: Offline Pretraining for Sequential Decision
Making
- Title(参考訳): 表象事項:順序決定のためのオフライン事前訓練
- Authors: Mengjiao Yang, Ofir Nachum
- Abstract要約: 本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
- 参考スコア(独自算出の注目度): 27.74988221252854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of supervised learning methods on ever larger offline
datasets has spurred interest in the reinforcement learning (RL) field to
investigate whether the same paradigms can be translated to RL algorithms. This
research area, known as offline RL, has largely focused on offline policy
optimization, aiming to find a return-maximizing policy exclusively from
offline data. In this paper, we consider a slightly different approach to
incorporating offline data into sequential decision-making. We aim to answer
the question, what unsupervised objectives applied to offline datasets are able
to learn state representations which elevate performance on downstream tasks,
whether those downstream tasks be online RL, imitation learning from expert
demonstrations, or even offline policy optimization based on the same offline
dataset? Through a variety of experiments utilizing standard offline RL
datasets, we find that the use of pretraining with unsupervised learning
objectives can dramatically improve the performance of policy learning
algorithms that otherwise yield mediocre performance on their own. Extensive
ablations further provide insights into what components of these unsupervised
objectives -- e.g., reward prediction, continuous or discrete representations,
pretraining or finetuning -- are most important and in which settings.
- Abstract(参考訳): より大きなオフラインデータセット上での教師あり学習手法の成功は、同じパラダイムをrlアルゴリズムに変換できるかどうかを調べるために強化学習(rl)分野への関心を喚起した。
オフラインRLと呼ばれるこの研究領域は、オフラインポリシーの最適化に重点を置いており、オフラインデータのみからリターン最大化ポリシーを見つけることを目指しています。
本稿では,オフラインデータを逐次意思決定に組み込むアプローチについて検討する。
私たちは、オフラインデータセットに適用される監視されていない目的が、ダウンストリームタスクのパフォーマンスを高める状態表現を学ぶことができるか、ダウンストリームタスクがオンラインRLであるかどうか、専門家のデモンストレーションからの模倣学習、または同じオフラインデータセットに基づくオフラインポリシーの最適化?
標準オフラインRLデータセットを用いたさまざまな実験を通じて、教師なしの学習目標で事前トレーニングを使用することで、ポリシー学習アルゴリズムのパフォーマンスが劇的に改善されることが判明しました。
広範囲にわたるアブレーションは、例えば報酬予測、連続的または離散的な表現、事前訓練または微調整など、これらの教師なしの目的のどのコンポーネントが最も重要でどの設定が重要かを洞察する。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Launchpad: Learning to Schedule Using Offline and Online RL Methods [9.488752723308954]
既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
論文 参考訳(メタデータ) (2022-12-01T16:40:11Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。