論文の概要: Imitation with Neural Density Models
- arxiv url: http://arxiv.org/abs/2010.09808v1
- Date: Mon, 19 Oct 2020 19:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:10:52.527632
- Title: Imitation with Neural Density Models
- Title(参考訳): 神経密度モデルによる模倣
- Authors: Kuno Kim, Akshat Jindal, Yang Song, Jiaming Song, Yanan Sui, Stefano
Ermon
- Abstract要約: 本稿では,Imitation Occupancy Entropy Reinforcement Learning (RL) を報奨として,専門家の占有率の密度推定によるImitation Learning (IL) の新しい枠組みを提案する。
提案手法は,専門家の占有率と模倣者の占有率の逆Kulback-Leibler偏差を確実に低くする非逆モデル自由RLの目的を最大化する。
- 参考スコア(独自算出の注目度): 98.34503611309256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new framework for Imitation Learning (IL) via density estimation
of the expert's occupancy measure followed by Maximum Occupancy Entropy
Reinforcement Learning (RL) using the density as a reward. Our approach
maximizes a non-adversarial model-free RL objective that provably lower bounds
reverse Kullback-Leibler divergence between occupancy measures of the expert
and imitator. We present a practical IL algorithm, Neural Density Imitation
(NDI), which obtains state-of-the-art demonstration efficiency on benchmark
control tasks.
- Abstract(参考訳): そこで,本論文では,Imitation Learning (IL) を専門家の占有度尺度の密度推定により提案し,次に,その密度を報酬として用いた最大職業性エントロピー強化学習 (RL) を提案する。
提案手法は,非敵対的モデルフリーのrl目標を最大化し,専門家と模倣者の占有率尺度間の逆カルバック・リーバの発散を立証する。
我々は,ベンチマーク制御タスクにおける最先端の実証効率を得る,実用的なILアルゴリズムであるNeural Density Imitation (NDI)を提案する。
関連論文リスト
- A Score-Based Density Formula, with Applications in Diffusion Generative Models [6.76974373198208]
スコアベース生成モデル(SGM)は、生成モデリングの分野に革命をもたらし、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。
実験的な進歩にもかかわらず、ログライクリッド上でのエビデンスローバウンド(ELBO)の最適化がDDPMなどの拡散生成モデルの訓練に有効である理由に関する理論的根拠はほとんど未解明のままである。
論文 参考訳(メタデータ) (2024-08-29T17:59:07Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z) - Optimal Sampling Density for Nonparametric Regression [5.3219212985943924]
本稿では,モデルに依存しない,モデルミスマッチに対する頑健な回帰学習戦略を提案する。
我々は、平均積分誤差(MISE)を一般化基準として採用し、MISEの挙動と局所的に最適な帯域幅を用いる。
提案手法のほとんどモデルフリーな性質は、対象問題の生特性を符号化し、堅牢でモデルに依存しない能動的学習戦略を提供する。
論文 参考訳(メタデータ) (2021-05-25T14:52:17Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z) - Learning Generative Models using Denoising Density Estimators [29.068491722778827]
縮退密度推定器(DDE)に基づく新しい生成モデルを提案する。
我々の主な貢献は、KL分割を直接最小化することで生成モデルを得る新しい技術である。
実験結果から, 生成モデル学習における密度推定と競争性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-01-08T20:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。