論文の概要: Learning Mixtures of Markov Chains and MDPs
- arxiv url: http://arxiv.org/abs/2211.09403v1
- Date: Thu, 17 Nov 2022 08:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 15:35:16.272471
- Title: Learning Mixtures of Markov Chains and MDPs
- Title(参考訳): マルコフ連鎖とMDPの混合学習
- Authors: Chinmaya Kausik, Kevin Tan, Ambuj Tewari
- Abstract要約: 本稿では,マルコフ連鎖 (MCs) とマルコフ決定過程 (オフライン潜在MDPs) をトラジェクトリから学習するためのアルゴリズムを提案する。
実験結果から、EM(平均で95.4%)とGuptaらによる以前の手法(54.1%)の両方を上回り、8x8グリッドワールドで100%の精度が得られることが示唆された。
- 参考スコア(独自算出の注目度): 17.11922027966447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an algorithm for use in learning mixtures of both Markov chains
(MCs) and Markov decision processes (offline latent MDPs) from trajectories,
with roots dating back to the work of Vempala and Wang. This amounts to
handling Markov chains with optional control input. The method is modular in
nature and amounts to (1) a subspace estimation step, (2) spectral clustering
of trajectories, and (3) a few iterations of the EM algorithm. We provide
end-to-end performance guarantees where we only explicitly require the number
of trajectories to be linear in states and the trajectory length to be linear
in mixing time. Experimental results suggest it outperforms both EM (95.4% on
average) and a previous method by Gupta et al. (54.1%), obtaining 100% permuted
accuracy on an 8x8 gridworld.
- Abstract(参考訳): 本稿では,マルコフ連鎖 (mcs) とマルコフ決定過程 (オフライン型mdp) の混合物を軌道から学習するためのアルゴリズムを提案する。
これはオプションの制御入力でマルコフ連鎖を扱うことに相当する。
本手法は本質的にモジュラーであり、(1)部分空間推定ステップ、(2)軌道のスペクトルクラスタリング、(3)emアルゴリズムのいくつかの反復に相当する。
我々は, 状態が線形であること, 軌道長が混合時間に線形であることのみを明示的に要求する, エンド・ツー・エンドの性能保証を提供する。
実験結果から、EM(平均で95.4%)と、Guptaらによる以前の手法(54.1%)の両方を上回り、8x8グリッドワールドで100%の精度が得られることが示唆された。
関連論文リスト
- Ai-Sampler: Adversarial Learning of Markov kernels with involutive maps [28.229819253644862]
本稿では,マルコフ連鎖の遷移核のパラメータ化と訓練を行い,効率的なサンプリングと良好な混合を実現する方法を提案する。
この訓練方法は、チェーンの定常分布とデータの経験分布との総変動距離を最小化する。
論文 参考訳(メタデータ) (2024-06-04T17:00:14Z) - Imitation Learning in Discounted Linear MDPs without exploration assumptions [58.81226849657474]
ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案する。
所望の精度$epsilon$から$mathcalO(epsilon-5)$から$mathcalO(epsilon-4)$への依存を改善する。
線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-03T15:28:44Z) - A Concentration Bound for TD(0) with Function Approximation [0.0]
私たちは、マルコフ連鎖の1つのサンプルパスからサンプルを採取して、オンラインTD学習に取り組みます。
我々は、TD(0) をマルティンゲールとマルコフの雑音による縮約近似アルゴリズムとして扱う。
論文 参考訳(メタデータ) (2023-12-16T11:33:12Z) - Stochastic-Constrained Stochastic Optimization with Markovian Data [2.1756081703276]
マルコフ連鎖からデータサンプルが引き出され、したがって独立性がなく、同一に分布しないような環境について検討する。
ドリフト・プラス・ペナルティの2つの変種を提案する。ひとつは、基礎となるマルコフ鎖の混合時間を知る場合である。
我々のアルゴリズムは、制約関数列がマルコフ連鎖に従うような制約付きオンライン凸最適化のより一般的な設定に適用できる。
論文 参考訳(メタデータ) (2023-12-07T14:09:27Z) - Stochastic Gradient Descent under Markovian Sampling Schemes [3.04585143845864]
マルコフ型サンプリングスキームにのみアクセス可能なバニラ勾配勾配の変動について検討する。
我々は、基礎となるマルコフ連鎖で可能な最小限の制限的な仮定の下で収束率を得ることに焦点をあてる。
論文 参考訳(メタデータ) (2023-02-28T09:18:00Z) - Overlap-guided Gaussian Mixture Models for Point Cloud Registration [61.250516170418784]
確率的3Dポイントクラウド登録法は、ノイズ、アウトレーヤ、密度変動を克服する競合性能を示した。
本稿では,一致したガウス混合モデル(GMM)パラメータから最適変換を演算する,重複誘導確率登録手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:02:33Z) - Sampling in Combinatorial Spaces with SurVAE Flow Augmented MCMC [83.48593305367523]
ハイブリッドモンテカルロ(Hybrid Monte Carlo)は、複素連続分布からサンプリングする強力なマルコフ連鎖モンテカルロ法である。
本稿では,SurVAEフローを用いたモンテカルロ法の拡張に基づく新しい手法を提案する。
本稿では,統計学,計算物理学,機械学習など,様々な分野におけるアルゴリズムの有効性を実証し,代替アルゴリズムと比較した改良点を考察する。
論文 参考訳(メタデータ) (2021-02-04T02:21:08Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - Orbital MCMC [82.54438698903775]
任意の微分同相写像から周期軌道を構築するための2つの実用的なアルゴリズムを提案する。
また,両カーネルの実用的メリットを実証した実証的研究を行った。
論文 参考訳(メタデータ) (2020-10-15T22:25:52Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。