論文の概要: Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations
- arxiv url: http://arxiv.org/abs/2206.04779v1
- Date: Thu, 9 Jun 2022 22:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 12:13:09.870247
- Title: Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations
- Title(参考訳): 視覚観察からのオフライン強化学習の課題と機会
- Authors: Cong Lu, Philip J. Ball, Tim G. J. Rudner, Jack Parker-Holder, Michael
A. Osborne, Yee Whye Teh
- Abstract要約: 2つの視覚に基づくオンライン強化学習アルゴリズムの変更は、事前作業より優れていることを示す。
視覚観測からオフラインRLに特有のいくつかのキーデシラタを提示,解析した。
- 参考スコア(独自算出の注目度): 58.758928936316785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning has shown great promise in leveraging large
pre-collected datasets for policy learning, allowing agents to forgo
often-expensive online data collection. However, to date, offline reinforcement
learning from has been relatively under-explored, and there is a lack of
understanding of where the remaining challenges lie. In this paper, we seek to
establish simple baselines for continuous control in the visual domain. We show
that simple modifications to two state-of-the-art vision-based online
reinforcement learning algorithms, DreamerV2 and DrQ-v2, suffice to outperform
prior work and establish a competitive baseline. We rigorously evaluate these
algorithms on both existing offline datasets and a new testbed for offline
reinforcement learning from visual observations that better represents the data
distributions present in real-world offline reinforcement learning problems,
and open-source our code and data to facilitate progress in this important
domain. Finally, we present and analyze several key desiderata unique to
offline RL from visual observations, including visual distractions and visually
identifiable changes in dynamics.
- Abstract(参考訳): オフライン強化学習は、ポリシー学習に大規模な事前に収集されたデータセットを活用する上で大きな可能性を秘めている。
しかし、現在までオフラインの強化学習は比較的過小評価されており、残りの課題がどこにあるかは理解されていない。
本稿では,視覚領域における連続制御のためのシンプルなベースラインを確立することを目的とする。
最新のビジョンに基づくオンライン強化学習アルゴリズムであるdreamerv2とdrq-v2の単純な修正が、先行研究よりも優れており、競争力のあるベースラインを確立するには十分であることを示す。
既存のオフラインデータセットとオフライン強化学習のための新しいテストベッドの両方でこれらのアルゴリズムを厳格に評価し、実世界のオフライン強化学習問題に存在するデータ分布をより良く表現し、この重要な領域の進歩を促進するために私たちのコードとデータをオープンソースにします。
最後に、視覚的注意散逸や動的変化の視覚的特定を含む、オフラインRLに特有のいくつかの重要なデシラタを視覚的観察から提示し、分析する。
関連論文リスト
- DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。