論文の概要: Learn Quasi-stationary Distributions of Finite State Markov Chain
- arxiv url: http://arxiv.org/abs/2111.11213v1
- Date: Fri, 19 Nov 2021 02:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 11:03:43.915759
- Title: Learn Quasi-stationary Distributions of Finite State Markov Chain
- Title(参考訳): 有限状態マルコフ鎖の準定常分布の学習
- Authors: Zhiqiang Cai and Ling Lin and Xiang Zhou
- Abstract要約: 準定常分布の表現を計算するための強化学習(RL)手法を提案する。
候補分布と真の目標分布によって誘導される2つのマルコフ経路分布のKL偏差を最小化する。
対応する政策勾配定理を導出し,最適な解法と値関数を学習するためのアクター・クリティカルなアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 2.780408966503282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a reinforcement learning (RL) approach to compute the expression
of quasi-stationary distribution. Based on the fixed-point formulation of
quasi-stationary distribution, we minimize the KL-divergence of two Markovian
path distributions induced by the candidate distribution and the true target
distribution. To solve this challenging minimization problem by gradient
descent, we apply the reinforcement learning technique by introducing the
corresponding reward and value functions. We derive the corresponding policy
gradient theorem and design an actor-critic algorithm to learn the optimal
solution and value function. The numerical examples of finite state Markov
chain are tested to demonstrate the new methods
- Abstract(参考訳): 準定常分布の表現を計算するための強化学習(RL)手法を提案する。
準定常分布の固定点定式化に基づき、候補分布と真の対象分布によって引き起こされる2つのマルコフ経路分布のkl分布を最小化する。
この難解な最小化問題を勾配降下によって解くために,対応する報酬と価値関数を導入することで強化学習手法を適用する。
対応するポリシー勾配定理を導出し、最適な解と値関数を学ぶためにアクター-クリティックアルゴリズムを設計する。
有限状態マルコフ連鎖の数値例は、新しい方法を実証するために試験される
関連論文リスト
- A Stein Gradient Descent Approach for Doubly Intractable Distributions [5.63014864822787]
そこで本研究では,2重に抽出可能な分布を推定するために,モンテカルロ・スタイン変分勾配勾配(MC-SVGD)法を提案する。
提案手法は,後続分布に匹敵する推論性能を提供しながら,既存のアルゴリズムよりもかなりの計算ゲインを達成する。
論文 参考訳(メタデータ) (2024-10-28T13:42:27Z) - Ai-Sampler: Adversarial Learning of Markov kernels with involutive maps [28.229819253644862]
本稿では,マルコフ連鎖の遷移核のパラメータ化と訓練を行い,効率的なサンプリングと良好な混合を実現する方法を提案する。
この訓練方法は、チェーンの定常分布とデータの経験分布との総変動距離を最小化する。
論文 参考訳(メタデータ) (2024-06-04T17:00:14Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Sampling in Combinatorial Spaces with SurVAE Flow Augmented MCMC [83.48593305367523]
ハイブリッドモンテカルロ(Hybrid Monte Carlo)は、複素連続分布からサンプリングする強力なマルコフ連鎖モンテカルロ法である。
本稿では,SurVAEフローを用いたモンテカルロ法の拡張に基づく新しい手法を提案する。
本稿では,統計学,計算物理学,機械学習など,様々な分野におけるアルゴリズムの有効性を実証し,代替アルゴリズムと比較した改良点を考察する。
論文 参考訳(メタデータ) (2021-02-04T02:21:08Z) - Distributed Stochastic Nonconvex Optimization and Learning based on
Successive Convex Approximation [26.11677569331688]
本稿では,ネットワーク内のエージェントの総和の分散アルゴリズム最小化のための新しいフレームワークを提案する。
提案手法は分散ニューラルネットワークに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-04-30T15:36:46Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。