論文の概要: CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.12191v1
- Date: Tue, 19 Dec 2023 14:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:12:50.041593
- Title: CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning
- Title(参考訳): CUDC:オフライン強化学習のための適応時間距離を用いた好奇心駆動型教師なしデータ収集手法
- Authors: Chenyu Sun, Hangwei Qian, Chunyan Miao
- Abstract要約: 本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
- 参考スコア(独自算出の注目度): 62.58375643251612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims to learn an effective policy from a
pre-collected dataset. Most existing works are to develop sophisticated
learning algorithms, with less emphasis on improving the data collection
process. Moreover, it is even challenging to extend the single-task setting and
collect a task-agnostic dataset that allows an agent to perform multiple
downstream tasks. In this paper, we propose a Curiosity-driven Unsupervised
Data Collection (CUDC) method to expand feature space using adaptive temporal
distances for task-agnostic data collection and ultimately improve learning
efficiency and capabilities for multi-task offline RL. To achieve this, CUDC
estimates the probability of the k-step future states being reachable from the
current states, and adapts how many steps into the future that the dynamics
model should predict. With this adaptive reachability mechanism in place, the
feature representation can be diversified, and the agent can navigate itself to
collect higher-quality data with curiosity. Empirically, CUDC surpasses
existing unsupervised methods in efficiency and learning performance in various
downstream offline RL tasks of the DeepMind control suite.
- Abstract(参考訳): オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学ぶことを目的としている。
既存の作業の多くは、データ収集プロセスの改善に重点を置きながら、高度な学習アルゴリズムを開発することにある。
さらに、シングルタスク設定を拡張して、エージェントが複数のダウンストリームタスクを実行できるタスクに依存しないデータセットを収集することも難しい。
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案し,タスクに依存しないデータ収集のための適応時間距離を用いて特徴空間を拡張し,最終的にはマルチタスクオフラインRLの学習効率と能力を向上させる。
これを達成するため、CUDCはk段階の将来の状態が現在の状態から到達可能な確率を推定し、力学モデルが予測すべき未来へのステップの数に適応する。
この適応的な到達性機構により、特徴表現は多様化し、エージェントは、好奇心を持って高品質なデータを集めることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Investigating Enhancements to Contrastive Predictive Coding for Human
Activity Recognition [7.086647707011785]
コントラスト予測符号化(Contrastive Predictive Coding, CPC)は、時系列データの特性を活用して効果的な表現を学習する手法である。
本研究では,アーキテクチャ,アグリゲータネットワーク,今後のタイムステップ予測を体系的に検討し,CPCの強化を提案する。
提案手法は6つのターゲットデータセットのうち4つを大幅に改善し,アプリケーションシナリオを広範囲に拡張する能力を示した。
論文 参考訳(メタデータ) (2022-11-11T12:54:58Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。