Fugu-MT 論文翻訳(概要): Offline Estimation of Controlled Markov Chains: Minimax Nonparametric Estimators and Sample Efficiency

論文の概要: Offline Estimation of Controlled Markov Chains: Minimax Nonparametric Estimators and Sample Efficiency

arxiv url: http://arxiv.org/abs/2211.07092v1
Date: Mon, 14 Nov 2022 03:39:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 17:02:40.659625
Title: Offline Estimation of Controlled Markov Chains: Minimax Nonparametric Estimators and Sample Efficiency
Title（参考訳）: 制御マルコフ鎖のオフライン推定:ミニマックス非パラメトリック推定器とサンプル効率
Authors: Imon Banerjee, Harsha Honnappa, Vinayak Rao
Abstract要約: 有限状態有限制御MCCの遷移確率を推定する。オンライン設定で行われているほとんどの研究とは異なり、オフラインのMDPについて検討する。エルゴード型マルコフ鎖, 弱エルゴード型不均質型マルコフ鎖, 非定常型マルコフ鎖, エピソード型, およびグリード型制御によるマルコフ鎖の制御など, 様々な例による結果の有効性を示す。
参考スコア（独自算出の注目度）: 3.4269133917069268
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controlled Markov chains (CMCs) have wide applications in engineering and machine learning, forming a key component in many reinforcement learning problems. In this work, we consider the estimation of the transition probabilities of a finite-state finite-control CMC, and develop a minimax sample complexity bounds for nonparametric estimation of these transition probability matrices. Unlike most studies that have been done in the online setup, we consider offline MDPs. Our results are quite general, since we do not assume anything specific about the logging policy. Instead, the dependence of our statistical bounds on the logging policy comes in the form of a natural mixing coefficient. We demonstrate an interesting trade-off between stronger assumptions on mixing versus requiring more samples to achieve a particular PAC-bound. We demonstrate the validity of our results under various examples, like ergodic Markov chains, weakly ergodic inhomogenous Markov chains, and controlled Markov chains with non-stationary Markov, episodic, and greedy controls. Lastly, we use the properties of the estimated transition matrix to perform estimate the value function when the controls are stationary and Markov.
Abstract（参考訳）: 制御マルコフ連鎖(CMC)は工学や機械学習に広く応用されており、多くの強化学習問題において重要な要素となっている。本研究では,有限状態有限制御cmcの遷移確率を推定し,これらの遷移確率行列の非パラメトリック推定のための極小サンプル複雑性境界を開発する。オンライン設定で行われているほとんどの研究とは異なり、オフラインmdpを考える。私たちの結果は、ロギングポリシーについて特に何も想定していないので、非常に一般的なものです。代わりに、ロギングポリシーに対する統計的境界の依存は、自然な混合係数の形で生じる。混合に対する強い仮定と、特定のPAC結合を達成するためにより多くのサンプルを必要とすることの間の興味深いトレードオフを示す。我々は, エルゴード型マルコフ鎖, 弱エルゴード型不均質型マルコフ鎖, 非定常型マルコフ鎖, エピソード型, およびグリード型制御によるマルコフ鎖の制御など, 様々な例による結果の有効性を示す。最後に,制御が定常かつマルコフである場合,推定遷移行列の特性を用いて値関数を推定する。

関連論文リスト

Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
Hoeffding's Inequality for Markov Chains under Generalized Concentrability Condition [15.228649445346473]
本稿では,積分確率計量(IPM)によって定義される一般化可積分性条件下でのマルコフ鎖の不等式について検討する。我々のフレームワークの柔軟性により、伝統的な意味でのエルゴード的マルコフ連鎖を超えて、ホーフディングの不等式を適用することができる。
論文参考訳（メタデータ） (2023-10-04T16:21:23Z)
A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文参考訳（メタデータ） (2023-04-11T09:13:17Z)
Stochastic Gradient Descent under Markovian Sampling Schemes [3.04585143845864]
マルコフ型サンプリングスキームにのみアクセス可能なバニラ勾配勾配の変動について検討する。我々は、基礎となるマルコフ連鎖で可能な最小限の制限的な仮定の下で収束率を得ることに焦点をあてる。
論文参考訳（メタデータ） (2023-02-28T09:18:00Z)
A Geometric Reduction Approach for Identity Testing of Reversible Markov Chains [25.33133112984769]
可逆マルコフ連鎖の同一性を、観測の単一軌跡からの参照に対して検定する問題を考察する。少なくとも軽度に制限された環境では、可逆鎖に対するアイデンティティのテストは、より大きな状態空間上の対称鎖へのテストに還元されることを示す。
論文参考訳（メタデータ） (2023-02-16T03:41:39Z)
Breaking the Spurious Causality of Conditional Generation via Fairness Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。この問題を緩和するための一般的な2段階戦略を提案する。
論文参考訳（メタデータ） (2022-12-05T08:09:33Z)
Leveraging Instance Features for Label Aggregation in Programmatic Weak Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。 PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文参考訳（メタデータ） (2022-10-06T07:28:53Z)
Semi-Supervised Clustering via Markov Chain Aggregation [9.475039534437332]
半教師付きクラスタリングのための制約付きマルコフクラスタリング(CoMaC)を導入する。以上の結果から,CoMaCは最先端技術と競合していることが明らかとなった。
論文参考訳（メタデータ） (2021-12-17T09:07:43Z)
Comparison of Markov chains via weak Poincar\'e inequalities with application to pseudo-marginal MCMC [0.0]
マルコフ連鎖の平衡への有界収束に対する弱ポアンカーの不等式として知られるある種の機能的不等式の使用について検討する。本研究では, 独立メトロポリス・ハスティングス・サンプリング法や, 難易度を求める疑似マルジナル手法などの手法に対して, サブ幾何学的収束境界の導出を可能にすることを示す。
論文参考訳（メタデータ） (2021-12-10T15:36:30Z)
Exploiting Sample Uncertainty for Domain Adaptive Person Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文参考訳（メタデータ） (2020-12-16T04:09:04Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)
Targeted stochastic gradient Markov chain Monte Carlo for hidden Markov models with rare latent states [48.705095800341944]
隠れマルコフモデルのためのマルコフ連鎖モンテカルロ (MCMC) アルゴリズムは、しばしば前向きのサンプリング器に依存する。これにより、時系列の長さが増加するにつれて計算が遅くなり、サブサンプリングベースのアプローチの開発が動機となる。本稿では,パラメータの勾配を計算する際に,希少な潜伏状態に対応するオーバーサンプリング観測を対象とするサブサンプリング手法を提案する。
論文参考訳（メタデータ） (2018-10-31T17:44:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。