論文の概要: Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using
Passive Langevin Dynamics
- arxiv url: http://arxiv.org/abs/2304.09123v2
- Date: Wed, 27 Sep 2023 17:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 19:29:50.628527
- Title: Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using
Passive Langevin Dynamics
- Title(参考訳): パッシブランジュバンダイナミクスを用いた適応逆強化学習のための有限サンプル境界
- Authors: Luke Snow and Vikram Krishnamurthy
- Abstract要約: 本稿では、適応逆強化学習(IRL)を実現するために設計された受動勾配ランゲヴィンダイナミクス(PSGLD)アルゴリズムの有限サンプル解析を提供する。
我々はPSGLDアルゴリズムによって生成された推定値とコスト関数との間の2-ワッサーシュタイン距離の有限サンプル境界を求める。
この研究は、受動的適応勾配アルゴリズムの分析をランゲヴィン力学の有限サンプル状態に拡張する。
- 参考スコア(独自算出の注目度): 15.878313629774269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a finite-sample analysis of a passive stochastic gradient
Langevin dynamics algorithm (PSGLD) designed to achieve adaptive inverse
reinforcement learning (IRL). By passive, we mean that the noisy gradients
available to the PSGLD algorithm (inverse learning process) are evaluated at
randomly chosen points by an external stochastic gradient algorithm (forward
learner) that aims to optimize a cost function. The PSGLD algorithm acts as a
randomized sampler to achieve adaptive IRL by reconstructing this cost function
nonparametrically from the stationary measure of a Langevin diffusion. Previous
work has analyzed the asymptotic performance of this passive algorithm using
weak convergence techniques. This paper analyzes the non-asymptotic
(finite-sample) performance using a logarithmic-Sobolev inequality and the
Otto-Villani Theorem. We obtain finite-sample bounds on the 2-Wasserstein
distance between the estimates generated by the PSGLD algorithm and the cost
function. Apart from achieving finite-sample guarantees for adaptive IRL, this
work extends a line of research in analysis of passive stochastic gradient
algorithms to the finite-sample regime for Langevin dynamics.
- Abstract(参考訳): 本稿では、適応的逆強化学習(IRL)を実現するために設計された受動確率勾配ランゲヴィン動的アルゴリズム(PSGLD)の有限サンプル解析を行う。
受動的に、PSGLDアルゴリズム(逆学習過程)に利用可能な雑音勾配を、コスト関数の最適化を目的とした外部確率勾配アルゴリズム(前方学習者)によってランダムに選択した点で評価する。
psgldアルゴリズムは、ランジュバン拡散の定常測度から非パラメトリックにこのコスト関数を再構成することで適応irlを達成するためにランダム化サンプリング器として機能する。
前回の研究では、弱収束法を用いてこのパッシブアルゴリズムの漸近的性能を分析した。
本稿では,対数-ソボレフの不等式とオットー-ヴィラニ理論を用いて,非漸近的(有限サンプル)性能を解析する。
psgldアルゴリズムによって生成された推定値とコスト関数の間の2-wasserstein距離の有限サンプル境界を求める。
適応IRLの有限サンプル保証の達成とは別に、この研究は受動確率勾配アルゴリズムの解析をランゲヴィン力学の有限サンプル規則に拡張する。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient [6.563379950720334]
我々は,不連続勾配による最適化問題を解くために,e-TH$varepsilon$O POULAと呼ばれる新しいランゲヴィン力学に基づくアルゴリズムを導入する。
金融と保険の3つの重要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化におけるトランスファーラーニング、保険請求予測がある。
論文 参考訳(メタデータ) (2022-10-24T13:10:06Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Non-asymptotic estimates for TUSLA algorithm for non-convex learning
with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。
特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。
TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文 参考訳(メタデータ) (2021-07-19T07:13:02Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - A Contour Stochastic Gradient Langevin Dynamics Algorithm for
Simulations of Multi-modal Distributions [17.14287157979558]
ビッグデータ統計学の学習のための適応重み付き勾配ランゲヴィン力学(SGLD)を提案する。
提案アルゴリズムは、CIFAR100を含むベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-10-19T19:20:47Z) - Langevin Dynamics for Adaptive Inverse Reinforcement Learning of
Stochastic Gradient Algorithms [21.796874356469644]
逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。
我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。
提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
論文 参考訳(メタデータ) (2020-06-20T23:12:11Z) - Non-asymptotic bounds for stochastic optimization with biased noisy
gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。
提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文 参考訳(メタデータ) (2020-02-26T12:53:04Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。