論文の概要: Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2206.10442v1
- Date: Tue, 21 Jun 2022 14:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:16:50.655302
- Title: Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning
- Title(参考訳): コントラスト学習によるオフラインメタ強化学習のためのロバストタスク表現
- Authors: Haoqi Yuan, Zongqing Lu
- Abstract要約: オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
- 参考スコア(独自算出の注目度): 21.59254848913971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline meta-reinforcement learning, a practical reinforcement
learning paradigm that learns from offline data to adapt to new tasks. The
distribution of offline data is determined jointly by the behavior policy and
the task. Existing offline meta-reinforcement learning algorithms cannot
distinguish these factors, making task representations unstable to the change
of behavior policies. To address this problem, we propose a contrastive
learning framework for task representations that are robust to the distribution
mismatch of behavior policies in training and test. We design a bi-level
encoder structure, use mutual information maximization to formalize task
representation learning, derive a contrastive learning objective, and introduce
several approaches to approximate the true distribution of negative pairs.
Experiments on a variety of offline meta-reinforcement learning benchmarks
demonstrate the advantages of our method over prior methods, especially on the
generalization to out-of-distribution behavior policies. The code is available
at https://github.com/PKU-AI-Edge/CORRO.
- Abstract(参考訳): オフラインデータから学習して新しいタスクに適応する実践的強化学習パラダイムであるオフラインメタ強化学習について検討する。
オフラインデータの配信は、行動方針とタスクとで共同で決定される。
既存のオフラインメタ強化学習アルゴリズムではこれらの要因を識別できないため、タスク表現が動作ポリシーの変更に不安定になる。
この問題に対処するために,学習・テストにおける行動方針の分布ミスマッチに頑健なタスク表現のためのコントラスト学習フレームワークを提案する。
本研究では,双方向エンコーダ構造を設計し,相互情報最大化を用いてタスク表現学習を形式化し,対照学習目標を導出し,負対の真の分布を近似する手法をいくつか紹介する。
様々なオフラインメタ強化学習ベンチマークにおける実験により,本手法が先行手法よりも優れていること,特に分布外行動ポリシーへの一般化が示された。
コードはhttps://github.com/PKU-AI-Edge/CORROで公開されている。
関連論文リスト
- Rethinking Meta-Learning from a Learning Lens [17.00587250127854]
我々は、メタ学習の戦略を学ぶためのより基本的な学習に焦点を当て、環境を変えることなく、エラーの原因とこれらのエラーの除去方法を探る。
本稿では,メタ学習の最適化プロセスに対するタスク関係の利用を提案し,その目的を達成するために,TRLearner(Task Relation Learner)と呼ばれるプラグアンドプレイ手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T02:00:16Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Disentangling Policy from Offline Task Representation Learning via
Adversarial Data Augmentation [29.49883684368039]
オフラインメタ強化学習(OMRL)は、静的データセットに依存して、エージェントが新しいタスクに取り組むことができる。
本稿では,タスク表現学習から行動ポリシーの影響を解き放つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:38:36Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z) - Algorithm Design for Online Meta-Learning with Task Boundary Detection [63.284263611646]
非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。
まず,タスクスイッチと分散シフトの簡易かつ効果的な2つの検出機構を提案する。
軽度条件下では,線形タスク平均的後悔がアルゴリズムに対して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-02T04:02:49Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Lessons from Chasing Few-Shot Learning Benchmarks: Rethinking the
Evaluation of Meta-Learning Methods [9.821362920940631]
メタラーニングのための簡単なベースライン、FIX-MLを紹介します。
メタラーニングの2つの可能性を探る:(i)トレーニングセット(in-distriion)を生成する同じタスク分布に一般化する手法を開発する、(ii)新しい未確認タスク分布(out-of-distriion)に一般化する手法を開発する。
本研究は,この領域の進歩を推論するためには,メタラーニングの目標を明確に説明し,より適切な評価戦略を開発する必要があることを強調した。
論文 参考訳(メタデータ) (2021-02-23T05:34:30Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。