論文の概要: Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.14834v1
- Date: Thu, 19 Dec 2024 13:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:25.838995
- Title: Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning
- Title(参考訳): オフラインメタ強化学習のためのエントロピー正規化タスク表現学習
- Authors: Mohammadreza nakhaei, Aidan Scannell, Joni Pajarinen,
- Abstract要約: オフラインのメタ強化学習は、エージェントに異なるタスクのセットからのデータに基づいてトレーニングすることで、新しいタスクに迅速に適応する能力を持たせることを目的としている。
コンテキストベースのアプローチでは、状態-アクション-リワード遷移の履歴を利用して現在のタスクの表現を推測し、タスク表現に対してエージェント、すなわちポリシーと値関数を条件付ける。
残念ながら、オフラインデータのコンテキストはテスト時にコンテキストと一致しないため、コンテキストベースのアプローチは配布ミスマッチに悩まされる。
- 参考スコア(独自算出の注目度): 12.443661471796595
- License:
- Abstract: Offline meta-reinforcement learning aims to equip agents with the ability to rapidly adapt to new tasks by training on data from a set of different tasks. Context-based approaches utilize a history of state-action-reward transitions -- referred to as the context -- to infer representations of the current task, and then condition the agent, i.e., the policy and value function, on the task representations. Intuitively, the better the task representations capture the underlying tasks, the better the agent can generalize to new tasks. Unfortunately, context-based approaches suffer from distribution mismatch, as the context in the offline data does not match the context at test time, limiting their ability to generalize to the test tasks. This leads to the task representations overfitting to the offline training data. Intuitively, the task representations should be independent of the behavior policy used to collect the offline data. To address this issue, we approximately minimize the mutual information between the distribution over the task representations and behavior policy by maximizing the entropy of behavior policy conditioned on the task representations. We validate our approach in MuJoCo environments, showing that compared to baselines, our task representations more faithfully represent the underlying tasks, leading to outperforming prior methods in both in-distribution and out-of-distribution tasks.
- Abstract(参考訳): オフラインのメタ強化学習は、エージェントに異なるタスクのセットからのデータに基づいてトレーニングすることで、新しいタスクに迅速に適応する能力を持たせることを目的としている。
コンテキストベースのアプローチでは、状態-アクション-リワード遷移(コンテキストと呼ばれる)の歴史を利用して、現在のタスクの表現を推論し、タスク表現に対してエージェント、すなわちポリシーと値関数を条件付ける。
直感的には、タスク表現が下位タスクをキャプチャするほど、エージェントが新しいタスクに一般化できる。
残念ながら、オフラインデータのコンテキストはテスト時にコンテキストと一致せず、テストタスクに一般化する能力を制限するため、コンテキストベースのアプローチは分散ミスマッチに悩まされる。
これにより、タスク表現がオフラインのトレーニングデータに過度に適合するようになる。
直感的には、タスク表現はオフラインデータの収集に使われる行動ポリシーとは独立していなければならない。
この問題に対処するため,タスク表現に規定された行動方針のエントロピーを最大化することにより,タスク表現上の分布と行動ポリシーとの間の相互情報をほぼ最小化する。
提案手法を MuJoCo 環境で検証した結果,ベースラインと比較して,タスク表現が基礎となるタスクをより忠実に表現し,分散処理とアウト・オブ・ディストリビューションタスクの両方において,先行手法よりも優れた結果が得られた。
関連論文リスト
- Disentangling Policy from Offline Task Representation Learning via
Adversarial Data Augmentation [29.49883684368039]
オフラインメタ強化学習(OMRL)は、静的データセットに依存して、エージェントが新しいタスクに取り組むことができる。
本稿では,タスク表現学習から行動ポリシーの影響を解き放つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:38:36Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Learning Task-oriented Disentangled Representations for Unsupervised
Domain Adaptation [165.61511788237485]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインシフト問題に対処することを目的としている。
UDAのための動的タスク指向の非絡合ネットワーク(DTDN)を提案し,非絡合表現をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2020-07-27T01:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。