Fugu-MT 論文翻訳(概要): Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics

論文の概要: Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics

arxiv url: http://arxiv.org/abs/2304.09123v2
Date: Wed, 27 Sep 2023 17:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 19:29:50.628527
Title: Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics
Title（参考訳）: パッシブランジュバンダイナミクスを用いた適応逆強化学習のための有限サンプル境界
Authors: Luke Snow and Vikram Krishnamurthy
Abstract要約: 本稿では、適応逆強化学習(IRL)を実現するために設計された受動勾配ランゲヴィンダイナミクス(PSGLD)アルゴリズムの有限サンプル解析を提供する。我々はPSGLDアルゴリズムによって生成された推定値とコスト関数との間の2-ワッサーシュタイン距離の有限サンプル境界を求める。この研究は、受動的適応勾配アルゴリズムの分析をランゲヴィン力学の有限サンプル状態に拡張する。
参考スコア（独自算出の注目度）: 15.878313629774269
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper provides a finite-sample analysis of a passive stochastic gradient Langevin dynamics algorithm (PSGLD) designed to achieve adaptive inverse reinforcement learning (IRL). By passive, we mean that the noisy gradients available to the PSGLD algorithm (inverse learning process) are evaluated at randomly chosen points by an external stochastic gradient algorithm (forward learner) that aims to optimize a cost function. The PSGLD algorithm acts as a randomized sampler to achieve adaptive IRL by reconstructing this cost function nonparametrically from the stationary measure of a Langevin diffusion. Previous work has analyzed the asymptotic performance of this passive algorithm using weak convergence techniques. This paper analyzes the non-asymptotic (finite-sample) performance using a logarithmic-Sobolev inequality and the Otto-Villani Theorem. We obtain finite-sample bounds on the 2-Wasserstein distance between the estimates generated by the PSGLD algorithm and the cost function. Apart from achieving finite-sample guarantees for adaptive IRL, this work extends a line of research in analysis of passive stochastic gradient algorithms to the finite-sample regime for Langevin dynamics.
Abstract（参考訳）: 本稿では、適応的逆強化学習(IRL)を実現するために設計された受動確率勾配ランゲヴィン動的アルゴリズム(PSGLD)の有限サンプル解析を行う。受動的に、PSGLDアルゴリズム(逆学習過程)に利用可能な雑音勾配を、コスト関数の最適化を目的とした外部確率勾配アルゴリズム(前方学習者)によってランダムに選択した点で評価する。 psgldアルゴリズムは、ランジュバン拡散の定常測度から非パラメトリックにこのコスト関数を再構成することで適応irlを達成するためにランダム化サンプリング器として機能する。前回の研究では、弱収束法を用いてこのパッシブアルゴリズムの漸近的性能を分析した。本稿では,対数-ソボレフの不等式とオットー-ヴィラニ理論を用いて,非漸近的(有限サンプル)性能を解析する。 psgldアルゴリズムによって生成された推定値とコスト関数の間の2-wasserstein距離の有限サンプル境界を求める。適応IRLの有限サンプル保証の達成とは別に、この研究は受動確率勾配アルゴリズムの解析をランゲヴィン力学の有限サンプル規則に拡張する。

関連論文リスト

A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient [6.563379950720334]
我々は,不連続勾配による最適化問題を解くために,e-TH$varepsilon$O POULAと呼ばれる新しいランゲヴィン力学に基づくアルゴリズムを導入する。金融と保険の3つの重要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化におけるトランスファーラーニング、保険請求予測がある。
論文参考訳（メタデータ） (2022-10-24T13:10:06Z)
Rigorous dynamical mean field theory for stochastic gradient descent methods [17.90683687731009]
一階勾配法の一家系の正確な高次元に対する閉形式方程式を証明した。これには勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。
論文参考訳（メタデータ） (2022-10-12T21:10:55Z)
Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文参考訳（メタデータ） (2022-03-30T11:39:00Z)
Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。本稿では,完全勾配の必要性を除去する。集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文参考訳（メタデータ） (2021-11-26T06:00:44Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。 TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文参考訳（メタデータ） (2021-07-19T07:13:02Z)
Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文参考訳（メタデータ） (2021-07-02T16:21:52Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
A Contour Stochastic Gradient Langevin Dynamics Algorithm for Simulations of Multi-modal Distributions [17.14287157979558]
ビッグデータ統計学の学習のための適応重み付き勾配ランゲヴィン力学(SGLD)を提案する。提案アルゴリズムは、CIFAR100を含むベンチマークデータセットで検証される。
論文参考訳（メタデータ） (2020-10-19T19:20:47Z)
Langevin Dynamics for Adaptive Inverse Reinforcement Learning of Stochastic Gradient Algorithms [21.796874356469644]
逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
論文参考訳（メタデータ） (2020-06-20T23:12:11Z)
Non-asymptotic bounds for stochastic optimization with biased noisy gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文参考訳（メタデータ） (2020-02-26T12:53:04Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。