Fugu-MT 論文翻訳(概要): Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics

論文の概要: Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics

arxiv url: http://arxiv.org/abs/2304.09123v1
Date: Tue, 18 Apr 2023 16:39:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 13:54:39.879758
Title: Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics
Title（参考訳）: パッシブランジュバンダイナミクスを用いた適応逆強化学習のための有限サンプル境界
Authors: Luke Snow and Vikram Krishnamurthy
Abstract要約: 勾配ランゲヴィン力学(SGLD)は確率分布のサンプリングに有用である。本稿では、逆強化学習を実現するために設計された受動勾配ランゲヴィンダイナミクス(PSGLD)の有限サンプル解析を行う。
参考スコア（独自算出の注目度）: 21.077291954133788
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic gradient Langevin dynamics (SGLD) are a useful methodology for sampling from probability distributions. This paper provides a finite sample analysis of a passive stochastic gradient Langevin dynamics algorithm (PSGLD) designed to achieve inverse reinforcement learning. By "passive", we mean that the noisy gradients available to the PSGLD algorithm (inverse learning process) are evaluated at randomly chosen points by an external stochastic gradient algorithm (forward learner). The PSGLD algorithm thus acts as a randomized sampler which recovers the cost function being optimized by this external process. Previous work has analyzed the asymptotic performance of this passive algorithm using stochastic approximation techniques; in this work we analyze the non-asymptotic performance. Specifically, we provide finite-time bounds on the 2-Wasserstein distance between the passive algorithm and its stationary measure, from which the reconstructed cost function is obtained.
Abstract（参考訳）: 確率勾配ランゲヴィン力学(SGLD)は確率分布のサンプリングに有用である。本稿では,逆強化学習を実現するために設計されたパッシブ確率勾配ランジュバンダイナミクスアルゴリズム(psgld)の有限サンプル解析を行う。パッシブ」により、PSGLDアルゴリズム(逆学習過程)で利用可能な雑音勾配は、外部確率勾配アルゴリズム(前方学習者)によってランダムに選択された点で評価される。したがってPSGLDアルゴリズムは、この外部プロセスによって最適化されるコスト関数を復元するランダム化サンプリングとして機能する。従来の研究は確率近似手法を用いて,この受動的アルゴリズムの漸近性能を解析し,非漸近性能を解析した。具体的には、パッシブアルゴリズムとその定常測度の間の2-wasserstein距離の有限時間境界を提供し、そこから再構成コスト関数を得る。

関連論文リスト

A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient [6.563379950720334]
我々は,不連続勾配による最適化問題を解くために,e-TH$varepsilon$O POULAと呼ばれる新しいランゲヴィン力学に基づくアルゴリズムを導入する。金融と保険の3つの重要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化におけるトランスファーラーニング、保険請求予測がある。
論文参考訳（メタデータ） (2022-10-24T13:10:06Z)
Rigorous dynamical mean field theory for stochastic gradient descent methods [17.90683687731009]
一階勾配法の一家系の正確な高次元に対する閉形式方程式を証明した。これには勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。
論文参考訳（メタデータ） (2022-10-12T21:10:55Z)
Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文参考訳（メタデータ） (2022-03-30T11:39:00Z)
Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。本稿では,完全勾配の必要性を除去する。集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文参考訳（メタデータ） (2021-11-26T06:00:44Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。 TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文参考訳（メタデータ） (2021-07-19T07:13:02Z)
Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文参考訳（メタデータ） (2021-07-02T16:21:52Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
A Contour Stochastic Gradient Langevin Dynamics Algorithm for Simulations of Multi-modal Distributions [17.14287157979558]
ビッグデータ統計学の学習のための適応重み付き勾配ランゲヴィン力学(SGLD)を提案する。提案アルゴリズムは、CIFAR100を含むベンチマークデータセットで検証される。
論文参考訳（メタデータ） (2020-10-19T19:20:47Z)
Langevin Dynamics for Adaptive Inverse Reinforcement Learning of Stochastic Gradient Algorithms [21.796874356469644]
逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
論文参考訳（メタデータ） (2020-06-20T23:12:11Z)
Non-asymptotic bounds for stochastic optimization with biased noisy gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文参考訳（メタデータ） (2020-02-26T12:53:04Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。