論文の概要: Scrutinize What We Ignore: Reining Task Representation Shift In Context-Based Offline Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.12001v1
- Date: Mon, 20 May 2024 13:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:14:56.732488
- Title: Scrutinize What We Ignore: Reining Task Representation Shift In Context-Based Offline Meta Reinforcement Learning
- Title(参考訳): Scrutinize What Ignore: Reining Task Representation Shift in Context-based Offline Meta Reinforcement Learning
- Authors: Hai Zhang, Boyuan Zheng, Anqi Guo, Tianying Ji, Pheng-Ann Heng, Junqiao Zhao, Lanqing Li,
- Abstract要約: オフラインメタ強化学習(OMRL)は、相互作用回避と強力な一般化性能のための有望なアプローチとして登場した。
従来の文脈に基づくアプローチは、タスクとタスク表現(I(Z;M)$)の間の相互情報の最大化が改善につながるという直感に依存していた。
タスク表現のシフトを抑えることで、単調なパフォーマンス向上を実現することができることを示す。
- 参考スコア(独自算出の注目度): 44.47648582366268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline meta reinforcement learning (OMRL) has emerged as a promising approach for interaction avoidance and strong generalization performance by leveraging pre-collected data and meta-learning techniques. Previous context-based approaches predominantly rely on the intuition that maximizing the mutual information between the task and the task representation ($I(Z;M)$) can lead to performance improvements. Despite achieving attractive results, the theoretical justification of performance improvement for such intuition has been lacking. Motivated by the return discrepancy scheme in the model-based RL field, we find that maximizing $I(Z;M)$ can be interpreted as consistently raising the lower bound of the expected return for a given policy conditioning on the optimal task representation. However, this optimization process ignores the task representation shift between two consecutive updates, which may lead to performance improvement collapse. To address this problem, we turn to use the framework of performance difference bound to consider the impacts of task representation shift explicitly. We demonstrate that by reining the task representation shift, it is possible to achieve monotonic performance improvements, thereby showcasing the advantage against previous approaches. To make it practical, we design an easy yet highly effective algorithm RETRO (\underline{RE}ining \underline{T}ask \underline{R}epresentation shift in context-based \underline{O}ffline meta reinforcement learning) with only adding one line of code compared to the backbone. Empirical results validate its state-of-the-art (SOTA) asymptotic performance, training stability and training-time consumption on MuJoCo and MetaWorld benchmarks.
- Abstract(参考訳): オフラインメタ強化学習(OMRL)は,事前収集データとメタラーニング技術を活用することにより,インタラクション回避と強力な一般化性能を実現するための有望なアプローチとして登場した。
従来の文脈に基づくアプローチは、主にタスクとタスク表現(I(Z;M)$)の間の相互情報を最大化する直感に依存している。
魅力的な結果を得たにも拘わらず、そのような直観に対する性能改善の理論的正当性は欠如している。
モデルベースRLフィールドの戻り値の不一致スキームにより、$I(Z;M)$を最大化することは、最適なタスク表現に基づいて与えられたポリシー条件に対する期待値の低い境界を一貫して引き上げることと解釈できる。
しかし、この最適化プロセスは2つの連続更新間のタスク表現シフトを無視しており、性能改善の崩壊につながる可能性がある。
この問題に対処するため,タスク表現のシフトの影響を明示的に考慮するために,パフォーマンス差の枠組みを用いる。
本研究では,タスク表現のシフトを抑えることで,単調な性能向上を実現し,従来の手法に対する優位性を示す。
本手法を実用化するために, バックボーンと比較して1行のコードを追加するだけで, 容易にかつ高効率なRETROアルゴリズムを設計する。
実験結果から,MuJoCoベンチマークとMetaWorldベンチマークにおいて,SOTA(State-of-the-art)の漸近的パフォーマンス,トレーニング安定性,トレーニング時間消費が検証された。
関連論文リスト
- STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。