論文の概要: Offline Estimation of Controlled Markov Chains: Minimaxity and Sample
Complexity
- arxiv url: http://arxiv.org/abs/2211.07092v4
- Date: Fri, 26 Jan 2024 20:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 00:51:29.802201
- Title: Offline Estimation of Controlled Markov Chains: Minimaxity and Sample
Complexity
- Title(参考訳): 制御マルコフ鎖のオフライン推定:最小値とサンプル複素度
- Authors: Imon Banerjee, Harsha Honnappa, Vinayak Rao
- Abstract要約: 我々は、推定器のサンプル複雑性境界を開発し、最小限の条件を確立する。
特定の統計的リスク境界を達成するには、混合特性の強さとサンプル数との微妙で興味深いトレードオフが伴うことを示す。
- 参考スコア(独自算出の注目度): 8.732260277121547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study a natural nonparametric estimator of the transition
probability matrices of a finite controlled Markov chain. We consider an
offline setting with a fixed dataset, collected using a so-called logging
policy. We develop sample complexity bounds for the estimator and establish
conditions for minimaxity. Our statistical bounds depend on the logging policy
through its mixing properties. We show that achieving a particular statistical
risk bound involves a subtle and interesting trade-off between the strength of
the mixing properties and the number of samples. We demonstrate the validity of
our results under various examples, such as ergodic Markov chains, weakly
ergodic inhomogeneous Markov chains, and controlled Markov chains with
non-stationary Markov, episodic, and greedy controls. Lastly, we use these
sample complexity bounds to establish concomitant ones for offline evaluation
of stationary Markov control policies.
- Abstract(参考訳): 本研究では,有限制御マルコフ連鎖の遷移確率行列の自然な非パラメトリック推定器について検討する。
我々は、いわゆるロギングポリシーを使用して収集される固定データセットを備えたオフライン設定を検討する。
我々は、推定器のサンプル複雑性境界を開発し、最小限の条件を確立する。
我々の統計的境界は、その混合特性を通じてロギングポリシーに依存する。
特定の統計的リスクバウンドを達成するには,混合特性の強さとサンプル数との微妙で興味深いトレードオフが伴うことを示す。
本研究は,非定常マルコフ,エピソディック,欲欲制御を用いた,エルゴディドマルコフ鎖,弱いエルゴディド不均質マルコフ鎖,制御マルコフ鎖といった様々な例において,その妥当性を示す。
最後に,これらのサンプル複雑性境界を用いて,定常マルコフ制御ポリシのオフライン評価を行う。
関連論文リスト
- Hoeffding's Inequality for Markov Chains under Generalized
Concentrability Condition [15.228649445346473]
本稿では,積分確率計量(IPM)によって定義される一般化可積分性条件下でのマルコフ鎖の不等式について検討する。
我々のフレームワークの柔軟性により、伝統的な意味でのエルゴード的マルコフ連鎖を超えて、ホーフディングの不等式を適用することができる。
論文 参考訳(メタデータ) (2023-10-04T16:21:23Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Stochastic Gradient Descent under Markovian Sampling Schemes [3.04585143845864]
マルコフ型サンプリングスキームにのみアクセス可能なバニラ勾配勾配の変動について検討する。
我々は、基礎となるマルコフ連鎖で可能な最小限の制限的な仮定の下で収束率を得ることに焦点をあてる。
論文 参考訳(メタデータ) (2023-02-28T09:18:00Z) - A Geometric Reduction Approach for Identity Testing of Reversible Markov
Chains [25.33133112984769]
可逆マルコフ連鎖の同一性を、観測の単一軌跡からの参照に対して検定する問題を考察する。
少なくとも軽度に制限された環境では、可逆鎖に対するアイデンティティのテストは、より大きな状態空間上の対称鎖へのテストに還元されることを示す。
論文 参考訳(メタデータ) (2023-02-16T03:41:39Z) - Breaking the Spurious Causality of Conditional Generation via Fairness
Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。
これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。
この問題を緩和するための一般的な2段階戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T08:09:33Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Semi-Supervised Clustering via Markov Chain Aggregation [9.475039534437332]
半教師付きクラスタリングのための制約付きマルコフクラスタリング(CoMaC)を導入する。
以上の結果から,CoMaCは最先端技術と競合していることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-17T09:07:43Z) - Comparison of Markov chains via weak Poincar\'e inequalities with
application to pseudo-marginal MCMC [0.0]
マルコフ連鎖の平衡への有界収束に対する弱ポアンカーの不等式として知られるある種の機能的不等式の使用について検討する。
本研究では, 独立メトロポリス・ハスティングス・サンプリング法や, 難易度を求める疑似マルジナル手法などの手法に対して, サブ幾何学的収束境界の導出を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:36:30Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。