論文の概要: Offline Meta Reinforcement Learning with In-Distribution Online
Adaptation
- arxiv url: http://arxiv.org/abs/2305.19529v1
- Date: Wed, 31 May 2023 03:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:50:26.196099
- Title: Offline Meta Reinforcement Learning with In-Distribution Online
Adaptation
- Title(参考訳): オンライン適応型オフラインメタ強化学習
- Authors: Jianhao Wang, Jin Zhang, Haozhe Jiang, Junyu Zhang, Liwei Wang,
Chongjie Zhang
- Abstract要約: 最初に、オフラインのメタRLにおいて、オフラインデータセットとオンライン適応の間のトランジッション・リワードの分散シフトというユニークな課題を特徴付ける。
我々は、不確実性定量化を伴うIn-Distribution Online Adaptation(IDAQ)と呼ばれる新しい適応フレームワークを提案する。
IDAQは、与えられた不確実性を利用して分配コンテキストを生成し、新しいタスクに対処するための効果的なタスク信念推論を行う。
- 参考スコア(独自算出の注目度): 38.35415999829767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent offline meta-reinforcement learning (meta-RL) methods typically
utilize task-dependent behavior policies (e.g., training RL agents on each
individual task) to collect a multi-task dataset. However, these methods always
require extra information for fast adaptation, such as offline context for
testing tasks. To address this problem, we first formally characterize a unique
challenge in offline meta-RL: transition-reward distribution shift between
offline datasets and online adaptation. Our theory finds that
out-of-distribution adaptation episodes may lead to unreliable policy
evaluation and that online adaptation with in-distribution episodes can ensure
adaptation performance guarantee. Based on these theoretical insights, we
propose a novel adaptation framework, called In-Distribution online Adaptation
with uncertainty Quantification (IDAQ), which generates in-distribution context
using a given uncertainty quantification and performs effective task belief
inference to address new tasks. We find a return-based uncertainty
quantification for IDAQ that performs effectively. Experiments show that IDAQ
achieves state-of-the-art performance on the Meta-World ML1 benchmark compared
to baselines with/without offline adaptation.
- Abstract(参考訳): 最近のオフラインメタ強化学習(meta-RL)手法は、通常、タスク依存の行動ポリシー(例えば、各タスクにRLエージェントを訓練するなど)を用いてマルチタスクデータセットを収集する。
しかし、これらのメソッドは常に、テストタスクのオフラインコンテキストなど、迅速な適応のために余分な情報を必要とする。
この問題に対処するために、我々はまずオフラインのメタRLにおいて、オフラインデータセットとオンライン適応の間のトランジッション・リワードの分散シフトというユニークな課題を公式に特徴づける。
本理論では,分散適応エピソードは信頼できない政策評価につながる可能性があり,配信内適応エピソードによるオンライン適応は適応性能の保証を保証できると考えられる。
これらの理論的知見に基づいて,不確実性定量化を伴うオンライン適応(IDAQ)と呼ばれる新しい適応フレームワークを提案し,不確実性定量化を用いて分散コンテキストを生成し,新しいタスクに対処するための効果的なタスク信念推論を行う。
IDAQの返却に基づく不確実性定量化が有効である。
実験の結果, IDAQは, オフライン適応を伴わないベースラインと比較して, Meta-World ML1ベンチマークで最先端のパフォーマンスを達成した。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Ensemble Successor Representations for Task Generalization in Offline-to-Online Reinforcement Learning [8.251711947874238]
オフラインRLは、オフラインポリシーを提供することによって、有望なソリューションを提供する。
既存の手法では,オフラインからオンラインへの適応におけるタスク一般化問題を考慮せずに,オフラインとオンラインの学習を同一タスクで行う。
本研究は、オンラインRLにおけるタスク一般化のための後継表現の探索を基盤とし、オフライン-オンライン学習を組み込むためのフレームワークを拡張した。
論文 参考訳(メタデータ) (2024-05-12T08:52:52Z) - Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文 参考訳(メタデータ) (2023-12-26T07:02:12Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning to Adapt to Online Streams with Distribution Shifts [22.155844301575883]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、トレーニングセットとテストセットの間の分散ギャップを低減する手法である。
この作業では、TTAをより実践的なシナリオに拡張し、テストデータは、時間とともに分散の変化を経験するオンラインストリームの形式で提供される。
本稿では,メタトレーニング中にネットワークに分散シフトするオンラインストリームに適応するように教えるメタラーニング手法を提案する。その結果,トレーニングされたモデルはバッチサイズ制限にかかわらず,テスト中の分散シフトに連続的に適応することができる。
論文 参考訳(メタデータ) (2023-03-02T23:36:10Z) - Algorithm Design for Online Meta-Learning with Task Boundary Detection [63.284263611646]
非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。
まず,タスクスイッチと分散シフトの簡易かつ効果的な2つの検出機構を提案する。
軽度条件下では,線形タスク平均的後悔がアルゴリズムに対して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-02T04:02:49Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。