論文の概要: A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.07541v2
- Date: Wed, 21 Feb 2024 03:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:07:25.442473
- Title: A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning
- Title(参考訳): オフライン・オンライン強化学習のための簡易統一不確実性誘導フレームワーク
- Authors: Siyuan Guo, Yanchao Sun, Jifeng Hu, Sili Huang, Hechang Chen, Haiyin
Piao, Lichao Sun, Yi Chang
- Abstract要約: オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
- 参考スコア(独自算出の注目度): 25.123237633748193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) provides a promising solution to learning
an agent fully relying on a data-driven paradigm. However, constrained by the
limited quality of the offline dataset, its performance is often sub-optimal.
Therefore, it is desired to further finetune the agent via extra online
interactions before deployment. Unfortunately, offline-to-online RL can be
challenging due to two main challenges: constrained exploratory behavior and
state-action distribution shift. To this end, we propose a Simple Unified
uNcertainty-Guided (SUNG) framework, which naturally unifies the solution to
both challenges with the tool of uncertainty. Specifically, SUNG quantifies
uncertainty via a VAE-based state-action visitation density estimator. To
facilitate efficient exploration, SUNG presents a practical optimistic
exploration strategy to select informative actions with both high value and
high uncertainty. Moreover, SUNG develops an adaptive exploitation method by
applying conservative offline RL objectives to high-uncertainty samples and
standard online RL objectives to low-uncertainty samples to smoothly bridge
offline and online stages. SUNG achieves state-of-the-art online finetuning
performance when combined with different offline RL methods, across various
environments and datasets in D4RL benchmark.
- Abstract(参考訳): オフライン強化学習(rl)は、データ駆動パラダイムに完全に依存したエージェントを学習するための有望なソリューションを提供する。
しかし、オフラインデータセットの品質が制限されているため、そのパフォーマンスはしばしばサブ最適である。
そのため、デプロイ前に追加のオンラインインタラクションを通じてエージェントをさらに微調整することが望まれる。
残念なことに、オフラインからオフラインへのRLは2つの大きな課題がある。
この目的のために,本研究では,両課題に対するソリューションを不確実性ツールで自然に統一する,シンプルな統一uNcertainty-Guided(SUNG)フレームワークを提案する。
特に、SUNGは、VAEに基づく状態行動訪問密度推定器を介して不確実性を定量化する。
効率的な探索を容易にするため,SUNGは,高い価値と高い不確実性の両方で情報的行動を選択するための実用的な楽観的な探索戦略を提案する。
さらに、SUNGは、オフラインおよびオンラインステージを円滑に橋渡しするために、保守的なオフラインRL目標を高不確かさサンプルに適用し、標準オンラインRL目標を低不確かさサンプルに適用し、適応的な利用方法を開発した。
SUNGは、D4RLベンチマークのさまざまな環境やデータセットで、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンライン微調整のパフォーマンスを達成する。
関連論文リスト
- Offline-to-Online Multi-Agent Reinforcement Learning with Offline Value Function Memory and Sequential Exploration [40.346958259814514]
逐次探索を用いたオフライン値関数メモリ(OVMSE)と呼ばれる新しいO2O MARLフレームワークを提案する。
まず、ターゲットQ値を計算するためのオフライン値関数メモリ(OVM)機構を導入し、オフライントレーニング中に得られた知識を保存する。
第2に,O2O MARLに適した分散型シークエンシャル・エクスプロレーション(SE)戦略を提案する。
論文 参考訳(メタデータ) (2024-10-25T10:24:19Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness [11.241036026084222]
offline-to-online (O2O) RLは、限られたオンラインインタラクション内でオフライントレーニングエージェントを改善するためのパラダイムを提供する。
ほとんどのオフラインRLアルゴリズムは性能低下に悩まされ、O2O適応の安定なポリシー改善を達成できなかった。
本稿では,不確実性と滑らか性によるオフラインポリシーの強化を目的としたRobost Offline-to-Online (RO2O)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T04:42:50Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement
Learning [17.664027379555183]
オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスを取得できないような設定に適用されることを約束する。
本稿では,他のダイナミックスから収集した(ソース)オフラインデータを用いて,大規模な(ターゲット)オフラインデータの要求を緩和することで,オフラインダイナミックス適応を定式化する。
ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。
論文 参考訳(メタデータ) (2022-03-13T14:30:55Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。