論文の概要: Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2206.10442v1
- Date: Tue, 21 Jun 2022 14:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:16:50.655302
- Title: Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning
- Title(参考訳): コントラスト学習によるオフラインメタ強化学習のためのロバストタスク表現
- Authors: Haoqi Yuan, Zongqing Lu
- Abstract要約: オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
- 参考スコア(独自算出の注目度): 21.59254848913971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline meta-reinforcement learning, a practical reinforcement
learning paradigm that learns from offline data to adapt to new tasks. The
distribution of offline data is determined jointly by the behavior policy and
the task. Existing offline meta-reinforcement learning algorithms cannot
distinguish these factors, making task representations unstable to the change
of behavior policies. To address this problem, we propose a contrastive
learning framework for task representations that are robust to the distribution
mismatch of behavior policies in training and test. We design a bi-level
encoder structure, use mutual information maximization to formalize task
representation learning, derive a contrastive learning objective, and introduce
several approaches to approximate the true distribution of negative pairs.
Experiments on a variety of offline meta-reinforcement learning benchmarks
demonstrate the advantages of our method over prior methods, especially on the
generalization to out-of-distribution behavior policies. The code is available
at https://github.com/PKU-AI-Edge/CORRO.
- Abstract(参考訳): オフラインデータから学習して新しいタスクに適応する実践的強化学習パラダイムであるオフラインメタ強化学習について検討する。
オフラインデータの配信は、行動方針とタスクとで共同で決定される。
既存のオフラインメタ強化学習アルゴリズムではこれらの要因を識別できないため、タスク表現が動作ポリシーの変更に不安定になる。
この問題に対処するために,学習・テストにおける行動方針の分布ミスマッチに頑健なタスク表現のためのコントラスト学習フレームワークを提案する。
本研究では,双方向エンコーダ構造を設計し,相互情報最大化を用いてタスク表現学習を形式化し,対照学習目標を導出し,負対の真の分布を近似する手法をいくつか紹介する。
様々なオフラインメタ強化学習ベンチマークにおける実験により,本手法が先行手法よりも優れていること,特に分布外行動ポリシーへの一般化が示された。
コードはhttps://github.com/PKU-AI-Edge/CORROで公開されている。
関連論文リスト
- Disentangling Policy from Offline Task Representation Learning via
Adversarial Data Augmentation [29.49883684368039]
オフラインメタ強化学習(OMRL)は、静的データセットに依存して、エージェントが新しいタスクに取り組むことができる。
本稿では,タスク表現学習から行動ポリシーの影響を解き放つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:38:36Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation [45.312333134810665]
数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
論文 参考訳(メタデータ) (2023-06-23T15:29:15Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z) - Algorithm Design for Online Meta-Learning with Task Boundary Detection [57.07616532337541]
非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。
まず,タスクスイッチと分散シフトの簡易かつ効果的な2つの検出機構を提案する。
軽度条件下では,線形タスク平均的後悔がアルゴリズムに対して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-02T04:02:49Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Lessons from Chasing Few-Shot Learning Benchmarks: Rethinking the
Evaluation of Meta-Learning Methods [9.821362920940631]
メタラーニングのための簡単なベースライン、FIX-MLを紹介します。
メタラーニングの2つの可能性を探る:(i)トレーニングセット(in-distriion)を生成する同じタスク分布に一般化する手法を開発する、(ii)新しい未確認タスク分布(out-of-distriion)に一般化する手法を開発する。
本研究は,この領域の進歩を推論するためには,メタラーニングの目標を明確に説明し,より適切な評価戦略を開発する必要があることを強調した。
論文 参考訳(メタデータ) (2021-02-23T05:34:30Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。