論文の概要: Concentration of Contractive Stochastic Approximation and Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2106.14308v1
- Date: Sun, 27 Jun 2021 18:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 17:40:19.712647
- Title: Concentration of Contractive Stochastic Approximation and Reinforcement
Learning
- Title(参考訳): 収縮的確率近似と強化学習の集中化
- Authors: Siddharth Chandak, Vivek S. Borkar
- Abstract要約: マルティンゲール濃度の不等式を用いて、縮尺写像とマルティンゲール差とマルコフ雑音との近似アルゴリズムに濃度境界を導出した。
これらは強化学習アルゴリズム、特に非同期Q-ラーニングやTD(0)に適用される。
- 参考スコア(独自算出の注目度): 0.6015898117103068
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Using a martingale concentration inequality, concentration bounds `from time
$n_0$ on' are derived for stochastic approximation algorithms with contractive
maps and both martingale difference and Markov noises. These are applied to
reinforcement learning algorithms, in particular to asynchronous Q-learning and
TD(0).
- Abstract(参考訳): マルティンゲール濃度の不等式を用いて, マルティンゲール差とマルコフ雑音の双方を縮合した確率近似アルゴリズムにおいて, 「時間$n_0$on」から濃度境界を導出した。
これらは強化学習アルゴリズム、特に非同期Q-ラーニングやTD(0)に適用される。
関連論文リスト
- Almost Sure Convergence Rates and Concentration of Stochastic Approximation and Reinforcement Learning with Markovian Noise [31.241889735283166]
カウントベース学習率を使わずにMarkovianサンプルを用いてQ$-learningの収束率を示す。
また、マルコフサンプルを用いた非政治時間差学習のための第1の集中度も提供する。
論文 参考訳(メタデータ) (2024-11-20T21:09:09Z) - The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise [17.493808856903303]
近似アルゴリズムを解析する根本的な課題は、その安定性を確立することである。
本稿では,マルティンゲール差分雑音設定からマルコフ雑音設定へ有界な安定に対するボルカー・メイン定理を拡張する。
我々の分析の中心は、少数の関数の変化の減少率であり、これは多量の強い法則の形式とよく用いられるV4 Lynovドリフト条件の両方によって示唆される。
論文 参考訳(メタデータ) (2024-01-15T17:20:17Z) - A Concentration Bound for TD(0) with Function Approximation [0.0]
私たちは、マルコフ連鎖の1つのサンプルパスからサンプルを採取して、オンラインTD学習に取り組みます。
我々は、TD(0) をマルティンゲールとマルコフの雑音による縮約近似アルゴリズムとして扱う。
論文 参考訳(メタデータ) (2023-12-16T11:33:12Z) - First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities [91.46841922915418]
本稿では,一階変分法の理論解析のための統一的アプローチを提案する。
提案手法は非線形勾配問題とモンテカルロの強い問題の両方をカバーする。
凸法最適化問題の場合、オラクルに強く一致するような境界を与える。
論文 参考訳(メタデータ) (2023-05-25T11:11:31Z) - Robust affine point matching via quadratic assignment on Grassmannians [50.366876079978056]
Robust Affine Matching with Grassmannians (RoAM) は点雲のアフィン登録を行うアルゴリズムである。
このアルゴリズムは、グラスマンの2つの要素間のフロベニウス距離を最小化することに基づいている。
論文 参考訳(メタデータ) (2023-03-05T15:27:24Z) - Online Multi-Agent Decentralized Byzantine-robust Gradient Estimation [62.997667081978825]
本アルゴリズムは,同時摂動,セキュアな状態推定,2時間スケール近似に基づく。
また,数値実験によるアルゴリズムの性能も示す。
論文 参考訳(メタデータ) (2022-09-30T07:29:49Z) - Learning Deep Optimal Embeddings with Sinkhorn Divergences [33.496926214655666]
Deep Metric Learningアルゴリズムは、入力データ間の類似性関係を維持するために、効率的な埋め込み空間を学習することを目的としている。
これらのアルゴリズムは、幅広いタスクにおいて大きなパフォーマンス向上を達成したが、包括的な類似性制約を考慮せず、増大させた。
ここでは,新しい,しかし効果的なDeep Class-wise Discrepancy Loss関数を設計することで,識別的深層埋め込み空間を学習することの懸念に対処する。
論文 参考訳(メタデータ) (2022-09-14T07:54:16Z) - Optimal Algorithms for Decentralized Stochastic Variational Inequalities [113.43047601775453]
この作業は、ますます重要になるが十分に理解されていない分散的な設定に集中する。
通信と局所的な繰り返しの両方の下位境界を示し、これらの下位境界に一致する最適なアルゴリズムを構築する。
我々のアルゴリズムは、分散化されたケースだけでなく、決定論的で非分散的な文献でも利用できる。
論文 参考訳(メタデータ) (2022-02-06T13:14:02Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - Deviation inequalities for stochastic approximation by averaging [0.5586191108738562]
平均化および非平均化による近似モデルを含むマルコフ鎖のクラスを紹介します。
このような連鎖の分離リプシッツ函数に対する様々な偏差不等式を、マルティンゲール差分の可除確率変数上で異なるモーメント条件で確立する。
論文 参考訳(メタデータ) (2021-02-17T10:57:37Z) - A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。
本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-02-25T18:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。