論文の概要: Disentangling Policy from Offline Task Representation Learning via
Adversarial Data Augmentation
- arxiv url: http://arxiv.org/abs/2403.07261v1
- Date: Tue, 12 Mar 2024 02:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:00:58.036175
- Title: Disentangling Policy from Offline Task Representation Learning via
Adversarial Data Augmentation
- Title(参考訳): 逆データ拡張によるオフラインタスク表現学習からの遠ざかる政策
- Authors: Chengxing Jia, Fuxiang Zhang, Yi-Chen Li, Chen-Xiao Gao, Xu-Hui Liu,
Lei Yuan, Zongzhang Zhang, Yang Yu
- Abstract要約: オフラインメタ強化学習(OMRL)は、静的データセットに依存して、エージェントが新しいタスクに取り組むことができる。
本稿では,タスク表現学習から行動ポリシーの影響を解き放つ新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 29.49883684368039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline meta-reinforcement learning (OMRL) proficiently allows an agent to
tackle novel tasks while solely relying on a static dataset. For precise and
efficient task identification, existing OMRL research suggests learning
separate task representations that be incorporated with policy input, thus
forming a context-based meta-policy. A major approach to train task
representations is to adopt contrastive learning using multi-task offline data.
The dataset typically encompasses interactions from various policies (i.e., the
behavior policies), thus providing a plethora of contextual information
regarding different tasks. Nonetheless, amassing data from a substantial number
of policies is not only impractical but also often unattainable in realistic
settings. Instead, we resort to a more constrained yet practical scenario,
where multi-task data collection occurs with a limited number of policies. We
observed that learned task representations from previous OMRL methods tend to
correlate spuriously with the behavior policy instead of reflecting the
essential characteristics of the task, resulting in unfavorable
out-of-distribution generalization. To alleviate this issue, we introduce a
novel algorithm to disentangle the impact of behavior policy from task
representation learning through a process called adversarial data augmentation.
Specifically, the objective of adversarial data augmentation is not merely to
generate data analogous to offline data distribution; instead, it aims to
create adversarial examples designed to confound learned task representations
and lead to incorrect task identification. Our experiments show that learning
from such adversarial samples significantly enhances the robustness and
effectiveness of the task identification process and realizes satisfactory
out-of-distribution generalization.
- Abstract(参考訳): オフラインメタ強化学習(OMRL)は、エージェントが静的データセットにのみ依存しながら、新しいタスクに取り組むことができる。
正確かつ効率的なタスク識別のために、既存のomrl研究は、ポリシー入力に組み込まれた別々のタスク表現を学習し、コンテキストベースのメタポリシーを形成することを提案している。
タスク表現をトレーニングするための主要なアプローチは、マルチタスクオフラインデータを使ったコントラスト学習を採用することである。
データセットは通常、さまざまなポリシー(例えば行動ポリシー)からのインタラクションを含み、異なるタスクに関する多くのコンテキスト情報を提供する。
それでも、かなりの数のポリシーからデータを集めることは、実用的でないだけでなく、現実的な設定では達成できないことが多い。
代わりに、マルチタスクのデータ収集が限られたポリシーで発生する、より制約のある、実用的なシナリオを採用しています。
従来のomrl手法から学習したタスク表現は,タスクの本質的特徴を反映するのではなく,行動ポリシーと疎結合に相関する傾向にあり,その結果,分散的一般化は好ましくないことがわかった。
この問題を軽減するために,タスク表現学習から,対向データ拡張と呼ばれるプロセスを通じて行動ポリシーの影響を解消する新しいアルゴリズムを提案する。
具体的には、逆データ拡張の目的は、単にオフラインデータ配信に類似したデータを生成することではなく、学習したタスク表現を抽出し、誤ったタスク識別につながるように設計された逆データ例を作成することである。
実験では,これらのサンプルから学習することで,タスク識別プロセスのロバスト性と有効性が著しく向上し,分散的一般化が実現できることを示す。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Offline Multi-task Transfer RL with Representational Penalization [26.114893629771736]
オフライン強化学習(RL)における表現伝達の問題について検討する。
本稿では,学習者表現に対する不確実性度を計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-19T21:52:44Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文 参考訳(メタデータ) (2023-12-26T07:02:12Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning [21.59254848913971]
オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2022-06-21T14:46:47Z) - Learning Task-oriented Disentangled Representations for Unsupervised
Domain Adaptation [165.61511788237485]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインシフト問題に対処することを目的としている。
UDAのための動的タスク指向の非絡合ネットワーク(DTDN)を提案し,非絡合表現をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2020-07-27T01:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。