論文の概要: Scrutinize What We Ignore: Reining Task Representation Shift In Context-Based Offline Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.12001v1
- Date: Mon, 20 May 2024 13:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:14:56.732488
- Title: Scrutinize What We Ignore: Reining Task Representation Shift In Context-Based Offline Meta Reinforcement Learning
- Title(参考訳): Scrutinize What Ignore: Reining Task Representation Shift in Context-based Offline Meta Reinforcement Learning
- Authors: Hai Zhang, Boyuan Zheng, Anqi Guo, Tianying Ji, Pheng-Ann Heng, Junqiao Zhao, Lanqing Li,
- Abstract要約: オフラインメタ強化学習(OMRL)は、相互作用回避と強力な一般化性能のための有望なアプローチとして登場した。
従来の文脈に基づくアプローチは、タスクとタスク表現(I(Z;M)$)の間の相互情報の最大化が改善につながるという直感に依存していた。
タスク表現のシフトを抑えることで、単調なパフォーマンス向上を実現することができることを示す。
- 参考スコア(独自算出の注目度): 44.47648582366268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline meta reinforcement learning (OMRL) has emerged as a promising approach for interaction avoidance and strong generalization performance by leveraging pre-collected data and meta-learning techniques. Previous context-based approaches predominantly rely on the intuition that maximizing the mutual information between the task and the task representation ($I(Z;M)$) can lead to performance improvements. Despite achieving attractive results, the theoretical justification of performance improvement for such intuition has been lacking. Motivated by the return discrepancy scheme in the model-based RL field, we find that maximizing $I(Z;M)$ can be interpreted as consistently raising the lower bound of the expected return for a given policy conditioning on the optimal task representation. However, this optimization process ignores the task representation shift between two consecutive updates, which may lead to performance improvement collapse. To address this problem, we turn to use the framework of performance difference bound to consider the impacts of task representation shift explicitly. We demonstrate that by reining the task representation shift, it is possible to achieve monotonic performance improvements, thereby showcasing the advantage against previous approaches. To make it practical, we design an easy yet highly effective algorithm RETRO (\underline{RE}ining \underline{T}ask \underline{R}epresentation shift in context-based \underline{O}ffline meta reinforcement learning) with only adding one line of code compared to the backbone. Empirical results validate its state-of-the-art (SOTA) asymptotic performance, training stability and training-time consumption on MuJoCo and MetaWorld benchmarks.
- Abstract(参考訳): オフラインメタ強化学習(OMRL)は,事前収集データとメタラーニング技術を活用することにより,インタラクション回避と強力な一般化性能を実現するための有望なアプローチとして登場した。
従来の文脈に基づくアプローチは、主にタスクとタスク表現(I(Z;M)$)の間の相互情報を最大化する直感に依存している。
魅力的な結果を得たにも拘わらず、そのような直観に対する性能改善の理論的正当性は欠如している。
モデルベースRLフィールドの戻り値の不一致スキームにより、$I(Z;M)$を最大化することは、最適なタスク表現に基づいて与えられたポリシー条件に対する期待値の低い境界を一貫して引き上げることと解釈できる。
しかし、この最適化プロセスは2つの連続更新間のタスク表現シフトを無視しており、性能改善の崩壊につながる可能性がある。
この問題に対処するため,タスク表現のシフトの影響を明示的に考慮するために,パフォーマンス差の枠組みを用いる。
本研究では,タスク表現のシフトを抑えることで,単調な性能向上を実現し,従来の手法に対する優位性を示す。
本手法を実用化するために, バックボーンと比較して1行のコードを追加するだけで, 容易にかつ高効率なRETROアルゴリズムを設計する。
実験結果から,MuJoCoベンチマークとMetaWorldベンチマークにおいて,SOTA(State-of-the-art)の漸近的パフォーマンス,トレーニング安定性,トレーニング時間消費が検証された。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:17:58Z) - Reinforcement Learning as an Improvement Heuristic for Real-World Production Scheduling [0.0]
1つの有望なアプローチは、RLエージェントを改善として訓練することであり、小さな変更を適用することで反復的に改善される最適以下のソリューションから始まる。
本手法を実世界の多目的生産スケジューリング問題に適用する。
当社のアプローチを、業界パートナの本当のデータを使って、他のアプローチと比較し、その優れたパフォーマンスを実証しました。
論文 参考訳(メタデータ) (2024-09-18T12:48:56Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Rethinking Value Function Learning for Generalization in Reinforcement
Learning [11.516147824168732]
我々は、観測一般化性能を向上させるために、複数の訓練環境においてRLエージェントを訓練することの課題に焦点をあてる。
マルチ環境設定における価値ネットワークは、従来の単一環境設定よりもトレーニングデータの過度な適合を最適化し難い。
本稿では,政策ネットワークよりもトレーニングデータが多い値ネットワークを少ない頻度で最適化することにより,暗黙的に評価値のペナルティ化を行うDelayed-Critic Policy Gradient (DCPG)を提案する。
論文 参考訳(メタデータ) (2022-10-18T16:17:47Z) - An Optimization-Based Meta-Learning Model for MRI Reconstruction with
Diverse Dataset [4.9259403018534496]
メタラーニングフレームワークを用いた一般化可能なMRI再構成モデルを構築した。
提案するネットワークは,学習者適応モデルを用いて正規化関数を学習する。
メタトレーニング後および半減期における未確認課題の即時訓練の結果を検証した。
論文 参考訳(メタデータ) (2021-10-02T03:21:52Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。