論文の概要: Minimax Optimal Online Imitation Learning via Replay Estimation
- arxiv url: http://arxiv.org/abs/2205.15397v2
- Date: Thu, 2 Jun 2022 15:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 09:57:09.907340
- Title: Minimax Optimal Online Imitation Learning via Replay Estimation
- Title(参考訳): リプレイ推定によるミニマックス最適オンライン模倣学習
- Authors: Gokul Swamy, Nived Rajaraman, Matthew Peng, Sanjiban Choudhury, J.
Andrew Bagnell, Zhiwei Steven Wu, Jiantao Jiao, Kannan Ramchandran
- Abstract要約: 本稿では,この経験的分散を低減するために,リプレイ推定手法を提案する。
提案手法では, min(H3/2 / N, H / sqrtN$)$ 依存度を最適に$widetildeO に設定する。
- 参考スコア(独自算出の注目度): 47.83919594113314
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Online imitation learning is the problem of how best to mimic expert
demonstrations, given access to the environment or an accurate simulator. Prior
work has shown that in the infinite sample regime, exact moment matching
achieves value equivalence to the expert policy. However, in the finite sample
regime, even if one has no optimization error, empirical variance can lead to a
performance gap that scales with $H^2 / N$ for behavioral cloning and $H /
\sqrt{N}$ for online moment matching, where $H$ is the horizon and $N$ is the
size of the expert dataset. We introduce the technique of replay estimation to
reduce this empirical variance: by repeatedly executing cached expert actions
in a stochastic simulator, we compute a smoother expert visitation distribution
estimate to match. In the presence of general function approximation, we prove
a meta theorem reducing the performance gap of our approach to the parameter
estimation error for offline classification (i.e. learning the expert policy).
In the tabular setting or with linear function approximation, our meta theorem
shows that the performance gap incurred by our approach achieves the optimal
$\widetilde{O} \left( \min({H^{3/2}} / {N}, {H} / {\sqrt{N}} \right)$
dependency, under significantly weaker assumptions compared to prior work. We
implement multiple instantiations of our approach on several continuous control
tasks and find that we are able to significantly improve policy performance
across a variety of dataset sizes.
- Abstract(参考訳): オンラインの模倣学習は、環境や正確なシミュレータへのアクセスを前提として、専門家のデモンストレーションを最もうまく模倣する方法の問題である。
先行研究では、無限サンプルレジームでは、正確なモーメントマッチングがエキスパートポリシーと等価性を達成することが示されている。
しかし、有限サンプルモデルでは、たとえ最適化エラーがなくても、経験的ばらつきは、動作のクローン化に$h^2 / n$、オンラインモーメントマッチングに$h / \sqrt{n}$、ただし$h$は水平であり、$n$はエキスパートデータセットのサイズである。
確率的シミュレータでキャッシュされたエキスパートアクションを繰り返し実行することにより、よりスムーズな専門家訪問分布推定を計算し、この経験的分散を低減させる手法を提案する。
一般関数近似の存在下では、オフライン分類におけるパラメータ推定誤差(すなわち、エキスパートポリシーの学習)に対する我々のアプローチの性能ギャップを低減するメタ定理を証明した。
表の設定や線形関数近似では、我々のメタ定理は、我々のアプローチによって引き起こされた性能ギャップが最適$\widetilde{O} \left(\min({H^{3/2}} / {N}, {H} / {\sqrt{N}} \right)$依存性を達成することを示す。
いくつかの連続的な制御タスクに対して、アプローチの複数のインスタンス化を実装し、さまざまなデータセットサイズでポリシーパフォーマンスを大幅に改善できることに気付きました。
関連論文リスト
- Theoretical limits of descending $\ell_0$ sparse-regression ML algorithms [0.0]
本研究では,emphmaximum-likelihood (ML)デコーディングの性能解析プログラムを開発した。
ML性能パラメータの鍵となるのは、残留エンフェロ平均二乗誤差(textbfRMSE$)を発見し、いわゆるエンフェロ遷移(PT)現象を示す。
Fl RDTの具体的実装と実用的妥当性は、典型的には、基礎となる数値評価のサイズのセットを実行する能力に依存している。
論文 参考訳(メタデータ) (2024-10-10T06:33:41Z) - Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization [11.11876897168701]
本稿では,次数$tildemathcalO(mathrmpoly(H)sqrtSAT)$の残差を求めるアルゴリズムを提案する。
提案したアルゴリズムと分析は、占有対策によって与えられる典型的なツールを完全に回避する。
論文 参考訳(メタデータ) (2024-07-08T08:06:45Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - A Specialized Semismooth Newton Method for Kernel-Based Optimal
Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。
SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-21T18:48:45Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Efficient Minimax Optimal Estimators For Multivariate Convex Regression [1.583842747998493]
i) $L$-Lipschitz convex regression (ii) $Gamma$-bounded convex regression undertopal support。
この研究は、非ドンスカー類に対する効率的なミニマックス最適推定器の存在を示す最初のものである。
論文 参考訳(メタデータ) (2022-05-06T17:04:05Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。