論文の概要: Offline Estimation of Controlled Markov Chains: Minimax Nonparametric
Estimators and Sample Efficiency
- arxiv url: http://arxiv.org/abs/2211.07092v2
- Date: Tue, 15 Nov 2022 16:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 12:47:50.814600
- Title: Offline Estimation of Controlled Markov Chains: Minimax Nonparametric
Estimators and Sample Efficiency
- Title(参考訳): 制御マルコフ鎖のオフライン推定:ミニマックス非パラメトリック推定器とサンプル効率
- Authors: Imon Banerjee, Harsha Honnappa, Vinayak Rao
- Abstract要約: 制御されたマルコフ連鎖はモデルに基づく強化学習のための岩盤を形成する。
有限状態有限制御CMCの非パラメトリック推定のためのミニマックスサンプル複雑性境界を開発する。
我々は, エルゴディックマルコフ鎖, 弱エルゴディック不均一マルコフ鎖, 非定常マルコフ鎖, エピソディック, グリーディ制御などの様々な例で, 結果の有効性を実証する。
- 参考スコア(独自算出の注目度): 3.4269133917069268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlled Markov chains (CMCs) form the bedrock for model-based
reinforcement learning. In this work, we consider the estimation of the
transition probability matrices of a finite-state finite-control CMC using a
fixed dataset, collected using a so-called logging policy, and develop minimax
sample complexity bounds for nonparametric estimation of these transition
probability matrices. Our results are general, and the statistical bounds
depend on the logging policy through a natural mixing coefficient. We
demonstrate an interesting trade-off between stronger assumptions on mixing
versus requiring more samples to achieve a particular PAC-bound. We demonstrate
the validity of our results under various examples, such as ergodic Markov
chains, weakly ergodic inhomogeneous Markov chains, and controlled Markov
chains with non-stationary Markov, episodic, and greedy controls. Lastly, we
use these sample complexity bounds to establish concomitant ones for offline
evaluation of stationary, Markov policies.
- Abstract(参考訳): 制御マルコフ連鎖(CMC)はモデルベース強化学習の基盤となる。
本研究では,有限状態有限制御MCCの遷移確率行列を,いわゆるロギングポリシを用いて収集した固定データセットを用いて推定し,これらの遷移確率行列の非パラメトリック推定のための最小サンプル複雑性境界を開発する。
結果は一般であり, 統計的境界は自然混合係数を通じて, 伐採政策に依存する。
混合に対する強い仮定と、特定のPAC結合を達成するためにより多くのサンプルを必要とすることの間の興味深いトレードオフを示す。
本研究は,非定常マルコフ,エピソディック,欲欲制御を用いた,エルゴディドマルコフ鎖,弱いエルゴディド不均質マルコフ鎖,制御マルコフ鎖といった様々な例において,その妥当性を示す。
最後に,これらのサンプル複雑性境界を用いて,定常マルコフポリシのオフライン評価を行う。
関連論文リスト
- Hoeffding's Inequality for Markov Chains under Generalized
Concentrability Condition [15.228649445346473]
本稿では,積分確率計量(IPM)によって定義される一般化可積分性条件下でのマルコフ鎖の不等式について検討する。
我々のフレームワークの柔軟性により、伝統的な意味でのエルゴード的マルコフ連鎖を超えて、ホーフディングの不等式を適用することができる。
論文 参考訳(メタデータ) (2023-10-04T16:21:23Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Stochastic Gradient Descent under Markovian Sampling Schemes [3.04585143845864]
マルコフ型サンプリングスキームにのみアクセス可能なバニラ勾配勾配の変動について検討する。
我々は、基礎となるマルコフ連鎖で可能な最小限の制限的な仮定の下で収束率を得ることに焦点をあてる。
論文 参考訳(メタデータ) (2023-02-28T09:18:00Z) - A Geometric Reduction Approach for Identity Testing of Reversible Markov
Chains [25.33133112984769]
可逆マルコフ連鎖の同一性を、観測の単一軌跡からの参照に対して検定する問題を考察する。
少なくとも軽度に制限された環境では、可逆鎖に対するアイデンティティのテストは、より大きな状態空間上の対称鎖へのテストに還元されることを示す。
論文 参考訳(メタデータ) (2023-02-16T03:41:39Z) - Breaking the Spurious Causality of Conditional Generation via Fairness
Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。
これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。
この問題を緩和するための一般的な2段階戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T08:09:33Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Semi-Supervised Clustering via Markov Chain Aggregation [9.475039534437332]
半教師付きクラスタリングのための制約付きマルコフクラスタリング(CoMaC)を導入する。
以上の結果から,CoMaCは最先端技術と競合していることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-17T09:07:43Z) - Comparison of Markov chains via weak Poincar\'e inequalities with
application to pseudo-marginal MCMC [0.0]
マルコフ連鎖の平衡への有界収束に対する弱ポアンカーの不等式として知られるある種の機能的不等式の使用について検討する。
本研究では, 独立メトロポリス・ハスティングス・サンプリング法や, 難易度を求める疑似マルジナル手法などの手法に対して, サブ幾何学的収束境界の導出を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:36:30Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Targeted stochastic gradient Markov chain Monte Carlo for hidden Markov models with rare latent states [48.705095800341944]
隠れマルコフモデルのためのマルコフ連鎖モンテカルロ (MCMC) アルゴリズムは、しばしば前向きのサンプリング器に依存する。
これにより、時系列の長さが増加するにつれて計算が遅くなり、サブサンプリングベースのアプローチの開発が動機となる。
本稿では,パラメータの勾配を計算する際に,希少な潜伏状態に対応するオーバーサンプリング観測を対象とするサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2018-10-31T17:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。