Fugu-MT 論文翻訳(概要): ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles

論文の概要: ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles

arxiv url: http://arxiv.org/abs/2306.06871v4
Date: Sun, 21 Jul 2024 14:49:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 05:56:27.472548
Title: ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles
Title（参考訳）: ENOTO: Q-Ensemblesによるオフライン・オンライン強化学習の改善
Authors: Kai Zhao, Jianye Hao, Yi Ma, Jinyi Liu, Yan Zheng, Zhaopeng Meng,
Abstract要約: 我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
参考スコア（独自算出の注目度）: 52.34951901588738
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning (RL) is a learning paradigm where an agent learns from a fixed dataset of experience. However, learning solely from a static dataset can limit the performance due to the lack of exploration. To overcome it, offline-to-online RL combines offline pre-training with online fine-tuning, which enables the agent to further refine its policy by interacting with the environment in real-time. Despite its benefits, existing offline-to-online RL methods suffer from performance degradation and slow improvement during the online phase. To tackle these challenges, we propose a novel framework called ENsemble-based Offline-To-Online (ENOTO) RL. By increasing the number of Q-networks, we seamlessly bridge offline pre-training and online fine-tuning without degrading performance. Moreover, to expedite online performance enhancement, we appropriately loosen the pessimism of Q-value estimation and incorporate ensemble-based exploration mechanisms into our framework. Experimental results demonstrate that ENOTO can substantially improve the training stability, learning efficiency, and final performance of existing offline RL methods during online fine-tuning on a range of locomotion and navigation tasks, significantly outperforming existing offline-to-online RL methods.
Abstract（参考訳）: オフライン強化学習(RL)は、エージェントが一定の経験のデータセットから学習する学習パラダイムである。しかし、静的データセットからのみ学習することは、探索の欠如によってパフォーマンスを制限できる。オフラインからオンラインまでのRLは、オフラインの事前トレーニングとオンラインの微調整を組み合わせることで、エージェントがリアルタイムで環境と対話することで、ポリシーをさらに洗練することができる。その利点にもかかわらず、既存のオフラインからオンラインまでのRLメソッドは、オンラインフェーズにおけるパフォーマンスの低下と改善の遅さに悩まされている。これらの課題に対処するため、ENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。さらに,オンラインのパフォーマンス向上を図るため,Q値推定の悲観性を適切に緩和し,アンサンブルに基づく探索機構を我々のフレームワークに組み込む。実験結果から,既存のオフラインRL手法のオンライン微調整において,ENOTOはトレーニング安定性,学習効率,最終性能を大幅に向上し,既存のオフラインRL手法よりも大幅に向上することが示された。

関連論文リスト

Reinforcement Learning with Action Chunking [56.838297900091426]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-10T17:48:03Z)
MOORL: A Framework for Integrating Offline-Online Reinforcement Learning [6.7265073544042995]
オフラインおよびオンライン学習を統合するハイブリッドフレームワークであるMOORL(Meta Offline-Online Reinforcement Learning)を提案する。提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
論文参考訳（メタデータ） (2025-06-11T10:12:50Z)
Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文参考訳（メタデータ） (2025-02-11T20:31:59Z)
Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL [36.65926744075032]
オフラインからオンラインへの強化学習(O2O)は、オンラインインタラクションの制限によって、パフォーマンスが急速に向上する。近年の研究では、特定のオフラインRL手法の微調整戦略を設計することが多く、任意のオフライン手法から一般のO2O学習を行うことはできない。この2つのミスマッチを同時に処理し,オフラインメソッドからオンラインメソッドへの一般的なO2O学習を実現することを提案する。
論文参考訳（メタデータ） (2024-12-25T09:52:22Z)
Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。 Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文参考訳（メタデータ） (2024-12-10T18:57:12Z)
Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。 U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。 U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文参考訳（メタデータ） (2024-08-27T05:23:45Z)
Ensemble Successor Representations for Task Generalization in Offline-to-Online Reinforcement Learning [8.251711947874238]
オフラインRLは、オフラインポリシーを提供することによって、有望なソリューションを提供する。既存の手法では,オフラインからオンラインへの適応におけるタスク一般化問題を考慮せずに,オフラインとオンラインの学習を同一タスクで行う。本研究は、オンラインRLにおけるタスク一般化のための後継表現の探索を基盤とし、オフライン-オンライン学習を組み込むためのフレームワークを拡張した。
論文参考訳（メタデータ） (2024-05-12T08:52:52Z)
Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness [11.241036026084222]
offline-to-online (O2O) RLは、限られたオンラインインタラクション内でオフライントレーニングエージェントを改善するためのパラダイムを提供する。ほとんどのオフラインRLアルゴリズムは性能低下に悩まされ、O2O適応の安定なポリシー改善を達成できなかった。本稿では,不確実性と滑らか性によるオフラインポリシーの強化を目的としたRobost Offline-to-Online (RO2O)アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-29T04:42:50Z)
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文参考訳（メタデータ） (2023-05-17T15:17:23Z)
Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文参考訳（メタデータ） (2023-03-30T14:08:31Z)
Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文参考訳（メタデータ） (2022-10-25T09:08:26Z)
MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文参考訳（メタデータ） (2022-01-25T03:14:57Z)
Offline-to-Online Reinforcement Learning via Balanced Replay and Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文参考訳（メタデータ） (2021-07-01T16:26:54Z)
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文参考訳（メタデータ） (2020-10-26T14:31:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。