論文の概要: Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.05701v1
- Date: Fri, 09 May 2025 00:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.10984
- Title: Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning
- Title(参考訳): データ効率の良いオフライン強化学習のための共有Q-Networkの事前学習
- Authors: Jongchan Park, Mingyu Park, Donghwan Lee,
- Abstract要約: オフライン強化学習(RL)は、静的データセットからポリシーを学習することを目的としている。
オフラインRLにおけるデータ効率を向上させるために,$Q$-networkの機能を初期化するためのプラグアンドプレイ事前学習手法を提案する。
本手法は,D4RLとExoRLのベンチマークを用いて,データ品質とデータ分布の異なるデータ効率のオフラインRLを大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 9.988205328630947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims to learn a policy from a static dataset without further interactions with the environment. Collecting sufficiently large datasets for offline RL is exhausting since this data collection requires colossus interactions with environments and becomes tricky when the interaction with the environment is restricted. Hence, how an agent learns the best policy with a minimal static dataset is a crucial issue in offline RL, similar to the sample efficiency problem in online RL. In this paper, we propose a simple yet effective plug-and-play pretraining method to initialize a feature of a $Q$-network to enhance data efficiency in offline RL. Specifically, we introduce a shared $Q$-network structure that outputs predictions of the next state and $Q$-value. We pretrain the shared $Q$-network through a supervised regression task that predicts a next state and trains the shared $Q$-network using diverse offline RL methods. Through extensive experiments, we empirically demonstrate that our method enhances the performance of existing popular offline RL methods on the D4RL, Robomimic and V-D4RL benchmarks. Furthermore, we show that our method significantly boosts data-efficient offline RL across various data qualities and data distributions trough D4RL and ExoRL benchmarks. Notably, our method adapted with only 10% of the dataset outperforms standard algorithms even with full datasets.
- Abstract(参考訳): オフライン強化学習(RL)は、環境とのさらなる相互作用なしに静的データセットからポリシーを学習することを目的としている。
オフラインRLのための十分な大規模なデータセットの収集は、このデータ収集が環境との余剰な相互作用を必要としており、環境との相互作用が制限されるとトリッキーになるため、枯渇している。
したがって、エージェントが最小限の静的データセットで最良のポリシーを学習する方法は、オンラインRLのサンプル効率問題と同様、オフラインRLにおいて重要な問題である。
本稿では,オフラインRLにおけるデータ効率を向上させるために,$Q$-networkの機能を初期化する,シンプルで効果的なプラグアンドプレイ事前学習法を提案する。
具体的には、次の状態の予測を出力する$Q$-network構造と$Q$-valueを導入します。
我々は、次の状態を予測する教師付き回帰タスクを通じて共有の$Q$-networkを事前訓練し、多様なオフラインRLメソッドを使用して共有の$Q$-networkをトレーニングする。
D4RL, Robomimic および V-D4RL ベンチマークにおいて,本手法が既存のオフライン RL 法の性能を向上させることを実証的に実証した。
さらに,本手法はD4RLとExoRLのベンチマークを用いて,データ品質とデータ分布の異なるデータ効率のオフラインRLを大幅に向上させることを示す。
特に、データセットの10%しか適応していない本手法は、完全なデータセットであっても標準アルゴリズムより優れています。
関連論文リスト
- Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。