論文の概要: Reward Informed Dreamer for Task Generalization in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.05092v1
- Date: Thu, 9 Mar 2023 08:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 15:44:48.976346
- Title: Reward Informed Dreamer for Task Generalization in Reinforcement
Learning
- Title(参考訳): 強化学習におけるタスク一般化のための逆インフォームドドリーム
- Authors: Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Songming Liu,
Jialian Li, Dong Yan, Jun Zhu
- Abstract要約: タスクの分布を分析するのに不可欠である,タスク間の類似度を測定することは容易ではない。
本稿では,タスク分布の関連性を定量的に捉えるために,タスク分布関連度(TDR)という新しい指標を提案する。
本稿では,Reward Informed Dreamer (RID) のフレームワークを提案する。Reward Informed World Model はタスク上の潜在機能をキャプチャし,異なるタスクを識別するためのポリシーに報酬信号をエンコードする。
- 参考スコア(独自算出の注目度): 28.913556311746298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing goal of reinforcement learning is that algorithms can learn
on training tasks and generalize well on unseen tasks like humans, where
different tasks share similar dynamic with different reward functions. A
general challenge is that it is nontrivial to quantitatively measure the
similarities between these different tasks, which is vital for analyzing the
task distribution and further designing algorithms with stronger
generalization. To address this, we present a novel metric named Task
Distribution Relevance (TDR) via optimal Q functions to capture the relevance
of the task distribution quantitatively. In the case of tasks with a high TDR,
i.e., the tasks differ significantly, we demonstrate that the Markovian
policies cannot distinguish them, yielding poor performance accordingly. Based
on this observation, we propose a framework of Reward Informed Dreamer (RID)
with reward-informed world models, which captures invariant latent features
over tasks and encodes reward signals into policies for distinguishing
different tasks. In RID, we calculate the corresponding variational lower bound
of the log-likelihood on the data, which includes a novel term to distinguish
different tasks via states, based on reward-informed world models. Finally,
extensive experiments in DeepMind control suite demonstrate that RID can
significantly improve the performance of handling different tasks at the same
time, especially for those with high TDR, and further generalize to unseen
tasks effectively.
- Abstract(参考訳): 強化学習の長年の目標は、アルゴリズムがトレーニングタスクで学び、人間のような目に見えないタスクにうまく一般化できることである。
一般的な課題は、これらの異なるタスク間の類似性を定量的に測定することは、タスクの分布を分析し、より強力な一般化を伴うアルゴリズムを設計するのに不可欠であるという点である。
そこで本稿では,タスク分布の定量的な関連性を捉えるために,最適q関数を用いたタスク分布関係(tdr)という新しい指標を提案する。
高いTDRを持つタスクの場合、すなわちタスクが著しく異なる場合、マルコフのポリシーはそれらを区別することができず、それに応じて性能が劣ることを示す。
そこで本研究では,Reward Informed Dreamer (RID) のフレームワークを提案する。このフレームワークは,タスク上の不変潜時特徴を捉え,異なるタスクを識別するためのポリシーに報酬信号をエンコードする。
ridでは、報酬に左右される世界モデルに基づいて、異なるタスクを状態によって区別する新しい用語を含むデータ上の対数類似度の変化下限を計算する。
最後に、DeepMindコントロールスイートの広範な実験により、RIDは、特に高いTDRを持つ場合において、異なるタスクを同時に処理する性能を大幅に向上し、さらに、見えないタスクを効果的に一般化できることが示されている。
関連論文リスト
- Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Towards Task Sampler Learning for Meta-Learning [37.02030832662183]
メタラーニングは、限られたデータから行われる多様なトレーニングタスクで一般的な知識を学び、それを新しいタスクに転送することを目的としている。
タスク多様性の増大はメタラーニングモデルの一般化能力を高めると一般的に信じられている。
本稿では、経験的および理論的分析を通して、この見解に挑戦する。
論文 参考訳(メタデータ) (2023-07-18T01:53:18Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code
Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。
既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-08T13:04:52Z) - Improving Task Generalization via Unified Schema Prompt [87.31158568180514]
Unified Promptはフレキシブルでプロンプトの手法で、タスク入力スキーマに従って各タスクの学習可能なプロンプトを自動的にカスタマイズする。
異なるタスクスキーマの特徴を維持しながら、タスク間の共有知識をモデル化する。
このフレームワークは、8つのタスクタイプから下流に見えない16のタスクに対して、強力なゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-05T15:26:36Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。