論文の概要: Proximal Point Imitation Learning
- arxiv url: http://arxiv.org/abs/2209.10968v3
- Date: Tue, 30 May 2023 15:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:36:09.128882
- Title: Proximal Point Imitation Learning
- Title(参考訳): 近位点模倣学習
- Authors: Luca Viano and Angeliki Kamoutsi and Gergely Neu and Igor Krawczuk and
Volkan Cevher
- Abstract要約: 我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
- 参考スコア(独自算出の注目度): 48.50107891696562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work develops new algorithms with rigorous efficiency guarantees for
infinite horizon imitation learning (IL) with linear function approximation
without restrictive coherence assumptions. We begin with the minimax
formulation of the problem and then outline how to leverage classical tools
from optimization, in particular, the proximal-point method (PPM) and dual
smoothing, for online and offline IL, respectively. Thanks to PPM, we avoid
nested policy evaluation and cost updates for online IL appearing in the prior
literature. In particular, we do away with the conventional alternating updates
by the optimization of a single convex and smooth objective over both cost and
Q-functions. When solved inexactly, we relate the optimization errors to the
suboptimality of the recovered policy. As an added bonus, by re-interpreting
PPM as dual smoothing with the expert policy as a center point, we also obtain
an offline IL algorithm enjoying theoretical guarantees in terms of required
expert trajectories. Finally, we achieve convincing empirical performance for
both linear and neural network function approximation.
- Abstract(参考訳): この研究は、制限的コヒーレンス仮定を伴わない線形関数近似による無限水平模倣学習(IL)のための厳密な効率を保証する新しいアルゴリズムを開発する。
まず,問題のminimax定式化から始めて,最適化,特にppm(proximal-point method)とdual smoothing(オンラインおよびオフラインil)による古典的ツールの活用方法について概説する。
PPMのおかげで、以前の文献に現れるオンラインILのネストされたポリシー評価やコスト更新を避けることができる。
特に、コストとq関数の両方に対して単一の凸と滑らかな目的を最適化することで、従来の交互更新を廃止する。
非現実的に解くと、最適化誤差は回復したポリシーの最適化性に関連づける。
付加的なボーナスとして、PPMをエキスパートポリシーを中心点とする二重平滑化として再解釈することにより、必要な専門家軌道の理論的保証を享受するオフラインILアルゴリズムを得る。
最後に,線形およびニューラルネット機能近似の実証的な性能を実現する。
関連論文リスト
- Optimal DLT-based Solutions for the Perspective-n-Point [0.0]
パースペクティブn-point(Newton)を解くための修正直線形(DLT)アルゴリズムを提案する。
この修正は、線形系における異なる測定を解析的に重み付けし、計算負荷を無視できるほど増加させる。
当社のアプローチは、パフォーマンスとランタイムの両方の改善をクリアします。
論文 参考訳(メタデータ) (2024-10-18T04:04:58Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization [42.865641215856925]
本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
論文 参考訳(メタデータ) (2021-11-27T03:57:13Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。