論文の概要: Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.12001v2
- Date: Mon, 30 Sep 2024 09:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:11.381151
- Title: Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning
- Title(参考訳): Scrutinize What Ignore: Reining In Task Representation Shift of Context-based Offline Meta Reinforcement Learning
- Authors: Hai Zhang, Boyuan Zheng, Tianying Ji, Jinhang Liu, Anqi Guo, Junqiao Zhao, Lanqing Li,
- Abstract要約: オフラインメタ強化学習(OMRL)は、相互作用回避と強力な一般化性能のための有望なアプローチとして登場した。
従来のコンテキストベースのアプローチは、コンテキストエンコーダとポリシーの最適化がパフォーマンス改善につながるという直感に依存しています。
タスク表現のシフトを抑えることで、パフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 10.792687309720169
- License:
- Abstract: Offline meta reinforcement learning (OMRL) has emerged as a promising approach for interaction avoidance and strong generalization performance by leveraging pre-collected data and meta-learning techniques. Previous context-based approaches predominantly rely on the intuition that alternating optimization between the context encoder and the policy can lead to performance improvements, as long as the context encoder follows the principle of maximizing the mutual information between the task and the task representation ($I(Z;M)$) while the policy adopts the standard offline reinforcement learning (RL) algorithms conditioning on the learned task representation. Despite promising results, the theoretical justification of performance improvements for such intuition remains underexplored. Inspired by the return discrepancy scheme in the model-based RL field, we find that the previous optimization framework can be linked with the general RL objective of maximizing the expected return, thereby providing a feasible explanation concerning performance improvements. Furthermore, after scrutinizing this optimization framework, we find it ignores the impacts stemming from the variation of the task representation in the alternating optimization process, which may lead to performance improvement collapse. We name this issue \underline{task representation shift} and theoretically prove that the monotonic performance improvements can be guaranteed with appropriate context encoder updates. We set different manners to rein in the task representation shift on three widely adopted training objectives concerning maximizing $I(Z;M)$ across different data qualities. Empirical results show that reining in the task representation shift can indeed improve performance. Our work opens up a new avenue for OMRL, leading to a better understanding between the performance and the task representation.
- Abstract(参考訳): オフラインメタ強化学習(OMRL)は,事前収集データとメタラーニング技術を活用することにより,インタラクション回避と強力な一般化性能を実現するための有望なアプローチとして登場した。
従来のコンテキストベースアプローチでは、コンテキストエンコーダがタスクとタスク表現の相互情報の最大化(I(Z;M)$)の原則に従っている限り、コンテキストエンコーダとポリシー間の最適化を交互に行うという直感に大きく依存しており、一方ポリシーは学習されたタスク表現に基づいて標準のオフライン強化学習(RL)アルゴリズムを採用する。
有望な結果にもかかわらず、そのような直観に対する性能改善の理論的正当性は未解明のままである。
モデルベースRL分野のリターン不一致スキームに着想を得た結果,従来の最適化フレームワークは期待したリターンを最大化するための一般RL目標とリンク可能であることが判明した。
さらに, この最適化フレームワークを精査した結果, 繰り返し最適化プロセスにおけるタスク表現の変動に起因する影響を無視し, 性能改善の崩壊につながる可能性が示唆された。
我々はこの問題を‘underline{task representation shift}’と命名し、適切なコンテキストエンコーダ更新によってモノトニック性能の改善が保証できることを理論的に証明する。
データ品質の異なる$I(Z;M)$を最大化することに関して、広く採用されている3つのトレーニング目標に対して、タスク表現のシフトを抑えるために異なる方法を設定しました。
実験結果から,タスク表現のシフトを抑えることで,性能が向上することが示された。
我々はOMRLの新たな道を開き、パフォーマンスとタスク表現をよりよく理解する。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:17:58Z) - Reinforcement Learning as an Improvement Heuristic for Real-World Production Scheduling [0.0]
1つの有望なアプローチは、RLエージェントを改善として訓練することであり、小さな変更を適用することで反復的に改善される最適以下のソリューションから始まる。
本手法を実世界の多目的生産スケジューリング問題に適用する。
当社のアプローチを、業界パートナの本当のデータを使って、他のアプローチと比較し、その優れたパフォーマンスを実証しました。
論文 参考訳(メタデータ) (2024-09-18T12:48:56Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Rethinking Value Function Learning for Generalization in Reinforcement
Learning [11.516147824168732]
我々は、観測一般化性能を向上させるために、複数の訓練環境においてRLエージェントを訓練することの課題に焦点をあてる。
マルチ環境設定における価値ネットワークは、従来の単一環境設定よりもトレーニングデータの過度な適合を最適化し難い。
本稿では,政策ネットワークよりもトレーニングデータが多い値ネットワークを少ない頻度で最適化することにより,暗黙的に評価値のペナルティ化を行うDelayed-Critic Policy Gradient (DCPG)を提案する。
論文 参考訳(メタデータ) (2022-10-18T16:17:47Z) - An Optimization-Based Meta-Learning Model for MRI Reconstruction with
Diverse Dataset [4.9259403018534496]
メタラーニングフレームワークを用いた一般化可能なMRI再構成モデルを構築した。
提案するネットワークは,学習者適応モデルを用いて正規化関数を学習する。
メタトレーニング後および半減期における未確認課題の即時訓練の結果を検証した。
論文 参考訳(メタデータ) (2021-10-02T03:21:52Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。