論文の概要: Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations
- arxiv url: http://arxiv.org/abs/2312.15909v1
- Date: Tue, 26 Dec 2023 07:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:44:23.087411
- Title: Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations
- Title(参考訳): データ制限付きオフラインメタ強化学習のための一般化可能なタスク表現学習
- Authors: Renzhe Zhou, Chen-Xiao Gao, Zongzhang Zhang, Yang Yu
- Abstract要約: 本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
- 参考スコア(独自算出の注目度): 22.23114883485924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization and sample efficiency have been long-standing issues
concerning reinforcement learning, and thus the field of Offline
Meta-Reinforcement Learning~(OMRL) has gained increasing attention due to its
potential of solving a wide range of problems with static and limited offline
data. Existing OMRL methods often assume sufficient training tasks and data
coverage to apply contrastive learning to extract task representations.
However, such assumptions are not applicable in several real-world applications
and thus undermine the generalization ability of the representations. In this
paper, we consider OMRL with two types of data limitations: limited training
tasks and limited behavior diversity and propose a novel algorithm called
GENTLE for learning generalizable task representations in the face of data
limitations. GENTLE employs Task Auto-Encoder~(TAE), which is an
encoder-decoder architecture to extract the characteristics of the tasks.
Unlike existing methods, TAE is optimized solely by reconstruction of the state
transition and reward, which captures the generative structure of the task
models and produces generalizable representations when training tasks are
limited. To alleviate the effect of limited behavior diversity, we consistently
construct pseudo-transitions to align the data distribution used to train TAE
with the data distribution encountered during testing. Empirically, GENTLE
significantly outperforms existing OMRL methods on both in-distribution tasks
and out-of-distribution tasks across both the given-context protocol and the
one-shot protocol.
- Abstract(参考訳): 一般化とサンプル効率は、強化学習に関する長年の課題であり、静的で限られたオフラインデータで幅広い問題を解決する可能性から、オフラインメタ強化学習(OMRL)の分野が注目されている。
既存のOMRL法は、タスク表現を抽出するためにコントラスト学習を適用するのに十分な訓練タスクとデータカバレッジを仮定することが多い。
しかし、そのような仮定はいくつかの実世界の応用には適用されず、したがって表現の一般化能力を損なう。
本稿では,OMRLに制限された訓練タスクと制限された行動多様性の2種類のデータ制限を考慮し,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムであるGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder~(TAE)を使用している。
既存の方法とは異なり、TAEは状態遷移と報酬の再構築にのみ最適化されており、これはタスクモデルの生成構造を捉え、訓練タスクが制限されたときに一般化可能な表現を生成する。
限られた行動多様性の影響を軽減するため、テスト中に遭遇したデータ分布とTAEのトレーニングに使用されるデータ分布を一致させるために、疑似遷移を一貫して構築する。
GENTLEは、与えられたコンテンツプロトコルとワンショットプロトコルの両方で、既存のOMRLメソッドよりも、分配タスクとアウト・オブ・ディストリビューションタスクの両方で大幅に優れている。
関連論文リスト
- Disentangling Policy from Offline Task Representation Learning via
Adversarial Data Augmentation [29.49883684368039]
オフラインメタ強化学習(OMRL)は、静的データセットに依存して、エージェントが新しいタスクに取り組むことができる。
本稿では,タスク表現学習から行動ポリシーの影響を解き放つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:38:36Z) - Offline Multi-task Transfer RL with Representational Penalization [26.114893629771736]
オフライン強化学習(RL)における表現伝達の問題について検討する。
本稿では,学習者表現に対する不確実性度を計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-19T21:52:44Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Task Aware Feature Extraction Framework for Sequential Dependence
Multi-Task Learning [1.0765359420035392]
我々は厳密な数学的観点から逐次依存型MLLを解析する。
逐次依存型MLLのためのタスク認識特徴抽出(TAFE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-06T13:12:59Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。