論文の概要: Sample-efficient reinforcement learning using deep Gaussian processes
- arxiv url: http://arxiv.org/abs/2011.01226v1
- Date: Mon, 2 Nov 2020 13:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:21:04.190991
- Title: Sample-efficient reinforcement learning using deep Gaussian processes
- Title(参考訳): 深いガウス過程を用いたサンプル効率強化学習
- Authors: Charles Gadd, Markus Heinonen, Harri L\"ahdesm\"aki and Samuel Kaski
- Abstract要約: 強化学習(Reinforcement learning)は、試行錯誤を通じてタスクを完了するためのアクションを制御するためのフレームワークを提供する。
モデルに基づく強化学習効率は、世界力学をシミュレートする学習によって改善される。
合成の深さがモデル複雑性をもたらすのに対して、ダイナミックスに関する事前の知識を取り入れることで、滑らかさと構造がもたらされる、深いガウス過程を導入する。
- 参考スコア(独自算出の注目度): 18.044018772331636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning provides a framework for learning to control which
actions to take towards completing a task through trial-and-error. In many
applications observing interactions is costly, necessitating sample-efficient
learning. In model-based reinforcement learning efficiency is improved by
learning to simulate the world dynamics. The challenge is that model
inaccuracies rapidly accumulate over planned trajectories. We introduce deep
Gaussian processes where the depth of the compositions introduces model
complexity while incorporating prior knowledge on the dynamics brings
smoothness and structure. Our approach is able to sample a Bayesian posterior
over trajectories. We demonstrate highly improved early sample-efficiency over
competing methods. This is shown across a number of continuous control tasks,
including the half-cheetah whose contact dynamics have previously posed an
insurmountable problem for earlier sample-efficient Gaussian process based
models.
- Abstract(参考訳): 強化学習は、試行錯誤を通じてタスクを完了するためのアクションを制御するためのフレームワークを提供する。
相互作用を観察する多くのアプリケーションは高価であり、サンプル効率の学習を必要とする。
モデルに基づく強化学習効率は、世界力学をシミュレートする学習によって改善される。
課題は、モデル不正確性が計画された軌道上に急速に蓄積することである。
合成の深さがモデル複雑性をもたらすのに対して、ダイナミックスに関する事前の知識は滑らかさと構造をもたらす。
我々のアプローチは、軌跡上のベイズ後部をサンプリングすることができる。
競合する手法よりも早期サンプル効率が向上した。
これは多数の連続制御タスクにまたがって示され、例えば、接触ダイナミクスが以前のサンプル効率の良いガウス過程に基づくモデルにとって不可解な問題となったハーフチーターを含む。
関連論文リスト
- Efficient Weight-Space Laplace-Gaussian Filtering and Smoothing for Sequential Deep Learning [29.328769628694484]
連続学習のような関連するタスクのシーケンスを効果的に学習することは、ニューラルネットにとって重要な課題となる。
ベイズ推定に基づくタスクを逐次学習するための基盤的枠組みを用いてこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-09T11:54:33Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Hint assisted reinforcement learning: an application in radio astronomy [2.4366811507669115]
モデル構築の複雑さを緩和する強化学習プロセスの補助として,環境が生み出すヒントを利用することを提案する。
いくつかの環境において, モデルフリー手法と比較して, ヒントを用いることで, サンプル効率が向上することを示す。
論文 参考訳(メタデータ) (2023-01-10T12:24:13Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Planning from Images with Deep Latent Gaussian Process Dynamics [2.924868086534434]
計画は既知の環境力学の問題を制御するための強力なアプローチである。
未知の環境では、エージェントは計画を適用するためにシステムダイナミクスのモデルを学ぶ必要がある。
本稿では,環境と視覚的相互作用から低次元システムダイナミクスを学習する,遅延ガウス過程力学(DLGPD)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-07T21:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。