論文の概要: Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics
- arxiv url: http://arxiv.org/abs/2304.09123v3
- Date: Wed, 15 Jan 2025 02:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 19:30:42.242086
- Title: Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics
- Title(参考訳): パッシブランゲヴィンダイナミクスを用いた適応的逆強化学習のための有限サンプル境界
- Authors: Luke Snow, Vikram Krishnamurthy,
- Abstract要約: 本稿では,受動勾配ランゲヴィンダイナミクス(PSGLD)アルゴリズムの有限サンプル解析を行う。
Adaptive IRLは、勾配アルゴリズムを実行する前方学習者のコスト関数を推定することを目的としている。
- 参考スコア(独自算出の注目度): 13.440621354486906
- License:
- Abstract: This paper provides a finite-sample analysis of a passive stochastic gradient Langevin dynamics (PSGLD) algorithm. This algorithm is designed to achieve adaptive inverse reinforcement learning (IRL). Adaptive IRL aims to estimate the cost function of a forward learner performing a stochastic gradient algorithm (e.g., policy gradient reinforcement learning) by observing their estimates in real-time. The PSGLD algorithm is considered passive because it incorporates noisy gradients provided by an external stochastic gradient algorithm (forward learner), of which it has no control. The PSGLD algorithm acts as a randomized sampler to achieve adaptive IRL by reconstructing the forward learner's cost function nonparametrically from the stationary measure of a Langevin diffusion. This paper analyzes the non-asymptotic (finite-sample) performance; we provide explicit bounds on the 2-Wasserstein distance between PSGLD algorithm sample measure and the stationary measure encoding the cost function, and provide guarantees for a kernel density estimation scheme which reconstructs the cost function from empirical samples. Our analysis uses tools from the study of Markov diffusion operators. The derived bounds have both practical and theoretical significance. They provide finite-time guarantees for an adaptive IRL mechanism, and substantially generalize the analytical framework of a line of research in passive stochastic gradient algorithms.
- Abstract(参考訳): 本稿では,受動確率勾配ランゲヴィンダイナミクス(PSGLD)の有限サンプル解析を行う。
このアルゴリズムは適応逆強化学習(IRL)を実現するために設計されている。
Adaptive IRLは、確率勾配アルゴリズム(例えば、ポリシー勾配強化学習)を実行する前方学習者のコスト関数を、リアルタイムで観測することで推定することを目的としている。
PSGLDアルゴリズムは、外部確率勾配アルゴリズム(前向き学習者)によって提供される雑音勾配を組み込んでおり、制御できないため、受動的と考えられる。
PSGLDアルゴリズムは、ランゲヴィン拡散の定常測度から非パラメトリックに前方学習者のコスト関数を再構成し、適応IRLを実現するためにランダム化されたサンプリング器として機能する。
本稿では,PSGLDアルゴリズムのサンプル測度とコスト関数を符号化する定常測度との間の2-ワッサーシュタイン距離の明示的な境界について,非漸近的(有限サンプル)性能を解析し,実験的なサンプルからコスト関数を再構成するカーネル密度推定スキームの保証を提供する。
我々の分析ではマルコフ拡散作用素の研究からツールを用いている。
導出境界は実用的および理論的に重要である。
これらは適応IRL機構に対する有限時間保証を提供し、受動確率勾配アルゴリズムにおける研究のラインの解析的枠組みを実質的に一般化する。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient [6.563379950720334]
我々は,不連続勾配による最適化問題を解くために,e-TH$varepsilon$O POULAと呼ばれる新しいランゲヴィン力学に基づくアルゴリズムを導入する。
金融と保険の3つの重要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化におけるトランスファーラーニング、保険請求予測がある。
論文 参考訳(メタデータ) (2022-10-24T13:10:06Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Non-asymptotic estimates for TUSLA algorithm for non-convex learning
with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。
特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。
TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文 参考訳(メタデータ) (2021-07-19T07:13:02Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - A Contour Stochastic Gradient Langevin Dynamics Algorithm for
Simulations of Multi-modal Distributions [17.14287157979558]
ビッグデータ統計学の学習のための適応重み付き勾配ランゲヴィン力学(SGLD)を提案する。
提案アルゴリズムは、CIFAR100を含むベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-10-19T19:20:47Z) - Langevin Dynamics for Adaptive Inverse Reinforcement Learning of
Stochastic Gradient Algorithms [21.796874356469644]
逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。
我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。
提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
論文 参考訳(メタデータ) (2020-06-20T23:12:11Z) - Non-asymptotic bounds for stochastic optimization with biased noisy
gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。
提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文 参考訳(メタデータ) (2020-02-26T12:53:04Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。