論文の概要: Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials
- arxiv url: http://arxiv.org/abs/2002.03072v1
- Date: Sat, 8 Feb 2020 02:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:12:51.650492
- Title: Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials
- Title(参考訳): 一般化隠れパラメータMDPを用いたモデルベースRLの試行
- Authors: Christian F. Perez, Felipe Petroski Such, Theofanis Karaletsos
- Abstract要約: 一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
- 参考スコア(独自算出の注目度): 13.051708608864539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is broad interest in creating RL agents that can solve many (related)
tasks and adapt to new tasks and environments after initial training.
Model-based RL leverages learned surrogate models that describe dynamics and
rewards of individual tasks, such that planning in a good surrogate can lead to
good control of the true system. Rather than solving each task individually
from scratch, hierarchical models can exploit the fact that tasks are often
related by (unobserved) causal factors of variation in order to achieve
efficient generalization, as in learning how the mass of an item affects the
force required to lift it can generalize to previously unobserved masses. We
propose Generalized Hidden Parameter MDPs (GHP-MDPs) that describe a family of
MDPs where both dynamics and reward can change as a function of hidden
parameters that vary across tasks. The GHP-MDP augments model-based RL with
latent variables that capture these hidden parameters, facilitating transfer
across tasks. We also explore a variant of the model that incorporates explicit
latent structure mirroring the causal factors of variation across tasks (for
instance: agent properties, environmental factors, and goals). We
experimentally demonstrate state-of-the-art performance and sample-efficiency
on a new challenging MuJoCo task using reward and dynamics latent spaces, while
beating a previous state-of-the-art baseline with $>10\times$ less data. Using
test-time inference of the latent variables, our approach generalizes in a
single episode to novel combinations of dynamics and reward, and to novel
rewards.
- Abstract(参考訳): 多くの(関連する)タスクを解決し、最初のトレーニング後に新しいタスクや環境に適応できるRLエージェントの作成には、幅広い関心がある。
モデルに基づくRLは、個々のタスクのダイナミクスと報酬を記述する学習されたサロゲートモデルを活用する。
階層モデルは、各タスクをスクラッチから個別に解くのではなく、アイテムの質量が持ち上げるために必要な力にどのように影響するかを学ぶ際に、効率的な一般化を達成するために、タスクが変化の因果要因によってしばしば関係しているという事実を利用することができる。
本稿では,タスクごとに異なる隠れパラメータの関数として,力学と報酬の両方が変化するMDPのファミリーを記述した一般化隠れパラメータ(GHP-MDP)を提案する。
GHP-MDPはモデルベースのRLを拡張し、潜在変数がこれらの隠れパラメータをキャプチャし、タスク間の転送を容易にする。
また,タスク間の差異の因果的要因(エージェント特性,環境要因,目標など)を反映した,明示的な潜伏構造を含むモデルの変種についても検討する。
従来の最先端のベースラインを10\times$より少ないデータで打ち負かしながら、報酬と動的潜在空間を用いた新しい挑戦的な MuJoCo タスクに対して、最先端のパフォーマンスとサンプル効率を実験的に実証した。
潜在変数のテスト時間推論を用いることで,1つのエピソードでダイナミクスと報酬の新しい組み合わせ,新たな報酬を一般化する。
関連論文リスト
- Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。
一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
コード及び事前訓練されたジェネリストモデルは、解放される。
論文 参考訳(メタデータ) (2022-06-09T17:59:59Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。