Fugu-MT 論文翻訳(概要): CUDC: A Curiosity-Driven Unsupervised Data Collection Method with Adaptive Temporal Distances for Offline Reinforcement Learning

論文の概要: CUDC: A Curiosity-Driven Unsupervised Data Collection Method with Adaptive Temporal Distances for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2312.12191v1
Date: Tue, 19 Dec 2023 14:26:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 15:12:50.041593
Title: CUDC: A Curiosity-Driven Unsupervised Data Collection Method with Adaptive Temporal Distances for Offline Reinforcement Learning
Title（参考訳）: CUDC:オフライン強化学習のための適応時間距離を用いた好奇心駆動型教師なしデータ収集手法
Authors: Chenyu Sun, Hangwei Qian, Chunyan Miao
Abstract要約: 本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
参考スコア（独自算出の注目度）: 62.58375643251612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning (RL) aims to learn an effective policy from a pre-collected dataset. Most existing works are to develop sophisticated learning algorithms, with less emphasis on improving the data collection process. Moreover, it is even challenging to extend the single-task setting and collect a task-agnostic dataset that allows an agent to perform multiple downstream tasks. In this paper, we propose a Curiosity-driven Unsupervised Data Collection (CUDC) method to expand feature space using adaptive temporal distances for task-agnostic data collection and ultimately improve learning efficiency and capabilities for multi-task offline RL. To achieve this, CUDC estimates the probability of the k-step future states being reachable from the current states, and adapts how many steps into the future that the dynamics model should predict. With this adaptive reachability mechanism in place, the feature representation can be diversified, and the agent can navigate itself to collect higher-quality data with curiosity. Empirically, CUDC surpasses existing unsupervised methods in efficiency and learning performance in various downstream offline RL tasks of the DeepMind control suite.
Abstract（参考訳）: オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学ぶことを目的としている。既存の作業の多くは、データ収集プロセスの改善に重点を置きながら、高度な学習アルゴリズムを開発することにある。さらに、シングルタスク設定を拡張して、エージェントが複数のダウンストリームタスクを実行できるタスクに依存しないデータセットを収集することも難しい。本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案し,タスクに依存しないデータ収集のための適応時間距離を用いて特徴空間を拡張し,最終的にはマルチタスクオフラインRLの学習効率と能力を向上させる。これを達成するため、CUDCはk段階の将来の状態が現在の状態から到達可能な確率を推定し、力学モデルが予測すべき未来へのステップの数に適応する。この適応的な到達性機構により、特徴表現は多様化し、エージェントは、好奇心を持って高品質なデータを集めることができる。実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。

関連論文リスト

Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。 ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文参考訳（メタデータ） (2025-02-01T03:04:53Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Investigating Enhancements to Contrastive Predictive Coding for Human Activity Recognition [7.086647707011785]
コントラスト予測符号化(Contrastive Predictive Coding, CPC)は、時系列データの特性を活用して効果的な表現を学習する手法である。本研究では,アーキテクチャ,アグリゲータネットワーク,今後のタイムステップ予測を体系的に検討し,CPCの強化を提案する。提案手法は6つのターゲットデータセットのうち4つを大幅に改善し,アプリケーションシナリオを広範囲に拡張する能力を示した。
論文参考訳（メタデータ） (2022-11-11T12:54:58Z)
The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文参考訳（メタデータ） (2022-01-27T23:59:56Z)
Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文参考訳（メタデータ） (2021-09-16T17:34:06Z)
Representation Matters: Offline Pretraining for Sequential Decision Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文参考訳（メタデータ） (2021-02-11T02:38:12Z)
D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文参考訳（メタデータ） (2020-04-15T17:18:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。