論文の概要: Context Shift Reduction for Offline Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.03695v1
- Date: Tue, 7 Nov 2023 03:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:03:01.374719
- Title: Context Shift Reduction for Offline Meta-Reinforcement Learning
- Title(参考訳): オフラインメタ強化学習におけるコンテキストシフト削減
- Authors: Yunkai Gao, Rui Zhang, Jiaming Guo, Fan Wu, Qi Yi, Shaohui Peng,
Siming Lan, Ruizhi Chen, Zidong Du, Xing Hu, Qi Guo, Ling Li, Yunji Chen
- Abstract要約: コンテキストシフト問題は、トレーニングとテストに使用されるコンテキスト間の分散の相違によって生じる。
既存のOMRLメソッドはこの問題を無視するか、追加情報で軽減しようとする。
OMRL (Context Shift Reduction for OMRL) と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 28.616141112916374
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline meta-reinforcement learning (OMRL) utilizes pre-collected offline
datasets to enhance the agent's generalization ability on unseen tasks.
However, the context shift problem arises due to the distribution discrepancy
between the contexts used for training (from the behavior policy) and testing
(from the exploration policy). The context shift problem leads to incorrect
task inference and further deteriorates the generalization ability of the
meta-policy. Existing OMRL methods either overlook this problem or attempt to
mitigate it with additional information. In this paper, we propose a novel
approach called Context Shift Reduction for OMRL (CSRO) to address the context
shift problem with only offline datasets. The key insight of CSRO is to
minimize the influence of policy in context during both the meta-training and
meta-test phases. During meta-training, we design a max-min mutual information
representation learning mechanism to diminish the impact of the behavior policy
on task representation. In the meta-test phase, we introduce the non-prior
context collection strategy to reduce the effect of the exploration policy.
Experimental results demonstrate that CSRO significantly reduces the context
shift and improves the generalization ability, surpassing previous methods
across various challenging domains.
- Abstract(参考訳): オフラインメタ強化学習(omrl)は、事前に収集されたオフラインデータセットを使用して、未処理タスクにおけるエージェントの一般化能力を高める。
しかしながら、(行動方針から)トレーニングに使用されるコンテキストと(探索政策から)テストに使用されるコンテキストの分布の不一致によって、コンテキストシフトの問題が発生する。
文脈シフト問題は誤ったタスク推論をもたらし、メタ政治の一般化能力をさらに悪化させる。
既存のOMRLメソッドはこの問題を無視するか、追加情報で軽減しようとする。
本稿では,オフラインデータセットのみを用いてコンテキストシフト問題に対処するための新しい手法として,omrl (csro) を提案する。
CSROの重要な洞察は、メタトレーニングとメタテストの両方の段階でのポリシーの影響を最小限に抑えることである。
メタトレーニング中、タスク表現に対する行動ポリシーの影響を低減するために、最大最小の相互情報表現学習機構を設計する。
メタテストフェーズでは,探索政策の効果を低減するために,非事前コンテキスト収集戦略を導入する。
実験の結果、CSROはコンテキストシフトを著しく低減し、様々な挑戦領域にまたがる従来の手法を上回る一般化能力を向上させることが示された。
関連論文リスト
- Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning [21.59254848913971]
オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2022-06-21T14:46:47Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Transfer Meta-Learning: Information-Theoretic Bounds and Information
Meta-Risk Minimization [47.7605527786164]
メタ学習は、複数の関連するタスクからのデータを観察し、誘導バイアスを自動的に推論する。
本稿では,メタテスト中に目標タスク環境からタスクを抽出するトランスファーメタラーニングの問題を紹介する。
論文 参考訳(メタデータ) (2020-11-04T12:55:43Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。