論文の概要: Monitoring State Transitions in Markovian Systems with Sampling Cost
- arxiv url: http://arxiv.org/abs/2510.22327v1
- Date: Sat, 25 Oct 2025 15:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.100281
- Title: Monitoring State Transitions in Markovian Systems with Sampling Cost
- Title(参考訳): サンプリングコストによるマルコフ系の状態遷移のモニタリング
- Authors: Kumar Saurav, Ness B. Shroff, Yingbin Liang,
- Abstract要約: 自然なアプローチは、予想される予測損失がクエリコスト以下で、クエリがなければいつ発生するかを予測する、欲張りのポリシーである。
最適(OPT)戦略は状態依存のしきい値ポリシである。
遷移確率が未知の場合、我々は、グレディポリシーの予測勾配降下(PSGD)に基づく学習変種を提案する。
- 参考スコア(独自算出の注目度): 65.4151496405543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a node-monitor pair, where the node's state varies with time. The monitor needs to track the node's state at all times; however, there is a fixed cost for each state query. So the monitor may instead predict the state using time-series forecasting methods, including time-series foundation models (TSFMs), and query only when prediction uncertainty is high. Since query decisions influence prediction accuracy, determining when to query is nontrivial. A natural approach is a greedy policy that predicts when the expected prediction loss is below the query cost and queries otherwise. We analyze this policy in a Markovian setting, where the optimal (OPT) strategy is a state-dependent threshold policy minimizing the time-averaged sum of query cost and prediction losses. We show that, in general, the greedy policy is suboptimal and can have an unbounded competitive ratio, but under common conditions such as identically distributed transition probabilities, it performs close to OPT. For the case of unknown transition probabilities, we further propose a projected stochastic gradient descent (PSGD)-based learning variant of the greedy policy, which achieves a favorable predict-query tradeoff with improved computational efficiency compared to OPT.
- Abstract(参考訳): ノードの状態が時間によって変化するノードとモニタのペアを考える。
モニタは常にノードの状態を追跡する必要があるが、各状態クエリには固定コストがある。
そのため、モニタは、時系列予測モデル(TSFM)を含む時系列予測手法を用いて状態を予測し、予測の不確実性が高い場合にのみクエリを行うことができる。
クエリ決定は予測精度に影響を与えるため、クエリのタイミングを決定することは簡単ではない。
自然なアプローチは、予想される予測損失がクエリコスト以下で、クエリがなければいつ発生するかを予測する、欲張りのポリシーである。
我々は、このポリシーをマルコフ的な環境で分析し、最適(OPT)戦略は、クエリコストと予測損失の平均的な総和を最小化する状態依存しきい値ポリシーである。
一般に、欲求政策は準最適であり、非有界競争比を持つことができるが、同じ分散遷移確率のような共通条件下では、OPTに近い性能を示すことを示す。
遷移確率が未知の場合、我々はさらに、OPTと比較して計算効率が向上し、良好な予測クエリのトレードオフを達成できる、greedy Policyの確率勾配勾配(PSGD)に基づく学習変種を提案する。
関連論文リスト
- Best-Effort Policies for Robust Markov Decision Processes [69.60742680559788]
我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。
このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。
我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-11T09:18:34Z) - Optimal Conformal Prediction under Epistemic Uncertainty [61.46247583794497]
コンフォーマル予測(CP)は不確実性を表すための一般的なフレームワークである。
条件付きカバレッジを保証する最小の予測セットを生成するBernoulli予測セット(BPS)を導入する。
1次予測を与えられた場合、BPSはよく知られた適応予測セット(APS)に還元する。
論文 参考訳(メタデータ) (2025-05-25T08:32:44Z) - Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding [52.1068936424622]
治療が介入によって設定された場合、対象変数$Y$に対して、予測因果効果$E[Y|do(X)]$を推定する問題を考える。
選択バイアスや欠点のない設定では、$E[Y|do(X)] = E[Y|X]$ となる。
選択バイアスとコンバウンディングの両方を組み込んだフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T13:43:37Z) - Kernel-based Optimally Weighted Conformal Prediction Intervals [12.814084012624916]
カーネルを用いた最適重み付き等角予測区間(KOWCPI)を提案する。
KOWCPIは古典的なReweighted Nadaraya-Watson (RNW) 推定器を従属データに対する量子回帰に適応させ、最適なデータ適応重みを学習する。
実時間および合成時系列データに対するKOWCPIの性能を最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-05-27T04:49:41Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Post-selection Inference for Conformal Prediction: Trading off Coverage
for Precision [0.0]
伝統的に、共形予測推論はデータに依存しない発見レベルの仕様を必要とする。
我々は,データ依存的誤発見レベルを考慮した同時共形推論を開発する。
論文 参考訳(メタデータ) (2023-04-12T20:56:43Z) - Planning in Observable POMDPs in Quasipolynomial Time [21.03037504572896]
我々は観測可能なPOMDPの計画のための準ポリノミカル時間アルゴリズムを開発した。
我々は、状態上のよく分断された分布が観察上のよく分断された分布をもたらすと仮定する。
観測可能なPOMDPの指数時間仮説の下での計画に適合する硬さを実証する。
論文 参考訳(メタデータ) (2022-01-12T23:16:37Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。