論文の概要: Task Aware Dreamer for Task Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.05092v3
- Date: Fri, 2 Feb 2024 16:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 20:40:50.604868
- Title: Task Aware Dreamer for Task Generalization in Reinforcement Learning
- Title(参考訳): 強化学習におけるタスク一般化のためのタスク認識ドリーム
- Authors: Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Songming Liu,
Dong Yan, Jun Zhu
- Abstract要約: 一般的な世界モデルのトレーニングは、タスクにおいて同様の構造を活用でき、より一般化可能なエージェントのトレーニングに役立つことを示す。
本稿では,タスク間の遅延特性を識別するために,報酬インフォームド機能を統合するタスク・アウェア・ドリーマー (TAD) という新しい手法を提案する。
画像ベースのタスクと状態ベースのタスクの両方の実験は、TADが異なるタスクを同時に処理するパフォーマンスを大幅に改善できることを示している。
- 参考スコア(独自算出の注目度): 32.93706056123124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing goal of reinforcement learning is to acquire agents that can
learn on training tasks and generalize well on unseen tasks that may share a
similar dynamic but with different reward functions. The ability to generalize
across tasks is important as it determines an agent's adaptability to
real-world scenarios where reward mechanisms might vary. In this work, we first
show that training a general world model can utilize similar structures in
these tasks and help train more generalizable agents. Extending world models
into the task generalization setting, we introduce a novel method named Task
Aware Dreamer (TAD), which integrates reward-informed features to identify
consistent latent characteristics across tasks. Within TAD, we compute the
variational lower bound of sample data log-likelihood, which introduces a new
term designed to differentiate tasks using their states, as the optimization
objective of our reward-informed world models. To demonstrate the advantages of
the reward-informed policy in TAD, we introduce a new metric called Task
Distribution Relevance (TDR) which quantitatively measures the relevance of
different tasks. For tasks exhibiting a high TDR, i.e., the tasks differ
significantly, we illustrate that Markovian policies struggle to distinguish
them, thus it is necessary to utilize reward-informed policies in TAD.
Extensive experiments in both image-based and state-based tasks show that TAD
can significantly improve the performance of handling different tasks
simultaneously, especially for those with high TDR, and display a strong
generalization ability to unseen tasks.
- Abstract(参考訳): 強化学習の長年の目標は、トレーニングタスクを学習し、同じような動的だが異なる報酬関数を持つ未確認タスクをうまく一般化できるエージェントを取得することである。
タスクをまたいで一般化する能力は、報酬メカニズムが異なる実世界のシナリオに対するエージェントの適応性を決定するために重要である。
本研究では,これらの課題に類似した構造を応用し,より一般化可能なエージェントを訓練する上で有効であることを示す。
タスクの一般化設定に世界モデルを拡張し,タスク認識ドリーマー (task aware dreamer, tad) という新しい手法を導入する。
tad内では、サンプルデータlog-likelihoodの変分下限を計算し、報酬に左右される世界モデルの最適化の目的として、それらの状態を使ってタスクを区別するように設計された新しい用語を導入します。
TADにおける報酬インフォームド・ポリシーの利点を実証するため,TDR(Task Distribution Relevance)と呼ばれる新しい尺度を導入し,タスクの妥当性を定量的に測定する。
高いTDRを示すタスク、すなわちタスクが著しく異なる場合、マルコフの政策がそれらを区別するのに苦労していることを示すため、TADの報酬インフォームドポリシーを利用する必要がある。
画像ベースのタスクと状態ベースのタスクの両方における大規模な実験により、TADは、特に高いTDRを持つタスクに対して、異なるタスクを同時に処理する性能を大幅に向上し、タスクを発見できないような強力な一般化能力を示す。
関連論文リスト
- Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Towards Task Sampler Learning for Meta-Learning [37.02030832662183]
メタラーニングは、限られたデータから行われる多様なトレーニングタスクで一般的な知識を学び、それを新しいタスクに転送することを目的としている。
タスク多様性の増大はメタラーニングモデルの一般化能力を高めると一般的に信じられている。
本稿では、経験的および理論的分析を通して、この見解に挑戦する。
論文 参考訳(メタデータ) (2023-07-18T01:53:18Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code
Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。
既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-08T13:04:52Z) - Improving Task Generalization via Unified Schema Prompt [87.31158568180514]
Unified Promptはフレキシブルでプロンプトの手法で、タスク入力スキーマに従って各タスクの学習可能なプロンプトを自動的にカスタマイズする。
異なるタスクスキーマの特徴を維持しながら、タスク間の共有知識をモデル化する。
このフレームワークは、8つのタスクタイプから下流に見えない16のタスクに対して、強力なゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-05T15:26:36Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。