論文の概要: Ensemble Successor Representations for Task Generalization in Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.07223v1
- Date: Sun, 12 May 2024 08:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 17:47:28.576219
- Title: Ensemble Successor Representations for Task Generalization in Offline-to-Online Reinforcement Learning
- Title(参考訳): オフライン-オンライン強化学習におけるタスク一般化のためのエンサンブル継承表現
- Authors: Changhong Wang, Xudong Yu, Chenjia Bai, Qiaosheng Zhang, Zhen Wang,
- Abstract要約: オフラインRLは、オフラインポリシーを提供することによって、有望なソリューションを提供する。
既存の手法では,オフラインからオンラインへの適応におけるタスク一般化問題を考慮せずに,オフラインとオンラインの学習を同一タスクで行う。
本研究は、オンラインRLにおけるタスク一般化のための後継表現の探索を基盤とし、オフライン-オンライン学習を組み込むためのフレームワークを拡張した。
- 参考スコア(独自算出の注目度): 8.251711947874238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning (RL), training a policy from scratch with online experiences can be inefficient because of the difficulties in exploration. Recently, offline RL provides a promising solution by giving an initialized offline policy, which can be refined through online interactions. However, existing approaches primarily perform offline and online learning in the same task, without considering the task generalization problem in offline-to-online adaptation. In real-world applications, it is common that we only have an offline dataset from a specific task while aiming for fast online-adaptation for several tasks. To address this problem, our work builds upon the investigation of successor representations for task generalization in online RL and extends the framework to incorporate offline-to-online learning. We demonstrate that the conventional paradigm using successor features cannot effectively utilize offline data and improve the performance for the new task by online fine-tuning. To mitigate this, we introduce a novel methodology that leverages offline data to acquire an ensemble of successor representations and subsequently constructs ensemble Q functions. This approach enables robust representation learning from datasets with different coverage and facilitates fast adaption of Q functions towards new tasks during the online fine-tuning phase. Extensive empirical evaluations provide compelling evidence showcasing the superior performance of our method in generalizing to diverse or even unseen tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)では、探索が困難であるため、オンライン体験をゼロからトレーニングすることは非効率である。
最近、オフラインRLは、オンラインインタラクションによって洗練される初期化オフラインポリシーを提供することで、有望なソリューションを提供する。
しかし,既存の手法では,オフラインからオンラインへの適応におけるタスク一般化問題を考慮せずに,オフラインとオンラインの学習を同一タスクで行う。
実世界のアプリケーションでは、特定のタスクからのオフラインデータセットしか持たず、複数のタスクに対する高速なオンライン適応を目指していないことが一般的である。
この問題に対処するため、オンラインRLにおけるタスク一般化のための後継表現の調査を基盤として、オフライン-オンライン学習を組み込むためのフレームワークを拡張した。
提案手法は,オンラインの微調整によりオフラインデータを効果的に活用することができず,新たなタスクの性能向上を図っている。
これを軽減するために、オフラインデータを利用して後続表現のアンサンブルを取得し、その後にアンサンブルQ関数を構成する新しい手法を提案する。
このアプローチは、異なるカバレッジを持つデータセットからの堅牢な表現学習を可能にし、オンラインの微調整フェーズにおいて、Q関数の新たなタスクへの迅速な適応を容易にする。
広範囲にわたる経験的評価は,本手法の多様さ,さらには見当たらない課題に一般化する上で,優れた性能を示す説得力のある証拠となる。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization [24.969834057981046]
従来のアプローチでは、オフラインとオンラインの学習を別々の手順として扱い、冗長な設計と限られたパフォーマンスをもたらす。
オフライン学習とオンライン学習の両方に、政治上の目的を利用するUni-o4を提案する。
本手法は,オフラインとオフラインのファインチューニング学習の両方において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2023-11-06T18:58:59Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Offline Meta Reinforcement Learning with In-Distribution Online
Adaptation [38.35415999829767]
最初に、オフラインのメタRLにおいて、オフラインデータセットとオンライン適応の間のトランジッション・リワードの分散シフトというユニークな課題を特徴付ける。
我々は、不確実性定量化を伴うIn-Distribution Online Adaptation(IDAQ)と呼ばれる新しい適応フレームワークを提案する。
IDAQは、与えられた不確実性を利用して分配コンテキストを生成し、新しいタスクに対処するための効果的なタスク信念推論を行う。
論文 参考訳(メタデータ) (2023-05-31T03:34:39Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。