Fugu-MT 論文翻訳(概要): Optimal sequential decision-making for error propagation mitigation in digital twins

論文の概要: Optimal sequential decision-making for error propagation mitigation in digital twins

arxiv url: http://arxiv.org/abs/2604.22168v1
Date: Fri, 24 Apr 2026 02:36:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-27 15:36:26.315324
Title: Optimal sequential decision-making for error propagation mitigation in digital twins
Title（参考訳）: ディジタル双生児における誤り伝播緩和のための最適順序決定法
Authors: Annice Najafi, Shokoufeh Mirzaei,
Abstract要約: 我々は,提案した制度が国家として機能し,是正的介入が行動として機能するマルコフ決定プロセス(MDP)を開発した。次に,この定式化を,ベイズ的フィルタリングを通じて更新された信念を維持することで,制度分類の不完全性を説明する部分観測可能MDP(Partially Observable MDP)に拡張する。どちらの定式化も動的プログラミングとシミュレーションによって解決される。モデルなし強化学習アルゴリズムであるQ-ラーニングとREINFORCEをベンチマークし、明確なモデル知識なしで効果的なポリシーを学習できるかを評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Here, we explore the problem of error propagation mitigation in modular digital twins as a sequential decision process. Building on a companion study that used a Hidden Markov Model (HMM) to infer latent error regimes from surrogate-physics residuals, we develop a Markov Decision Process (MDP) in which the inferred regimes serve as states, corrective interventions serve as actions, and a scalar reward that takes into consideration the cost-benefit tradeoff between system fidelity and maintenance expense. The baseline transition matrix is extracted from the HMM-learned parameters. We then extend the formulation to a Partially Observable MDP (POMDP) that accounts for the imperfect nature of regime classification by maintaining a belief distribution updated via Bayesian filtering, with the HMM confusion matrix serving as the observation model. Both formulations are solved via dynamic programming and validated through Gillespie stochastic simulation. We then benchmark two model-free reinforcement learning algorithms, Q-learning and REINFORCE, to assess whether effective policies can be learned without explicit model knowledge. A systematic comparison of different intervention policies demonstrates that the MDP policy achieves the highest cumulative reward and fraction of time in nominal operation, while the POMDP recovers approximately 95\% of MDP performance under realistic observation noise. Sensitivity analyses across observation quality, repair probability, and discount factor confirm the robustness of these conclusions, and the major gaps in the policy hierarchy are statistically significant at $p < 0.001$. The gap between MDP and POMDP performance quantifies the value of information providing a principled criterion for investing in improved classification accuracy.
Abstract（参考訳）: 本稿では,モジュール型ディジタル双生児における誤り伝播緩和の問題を逐次決定過程として検討する。隠れマルコフモデル (HMM) を用いて、サロゲート物理残差から潜時エラー体制を推定するコンパニオン研究に基づいて、推定された制度が国家として機能し、修正的介入が行動として機能するマルコフ決定プロセス(MDP)を開発し、システム忠実性と保守費用の間のコスト対効果のトレードオフを考慮したスカラー報酬を考案する。 HMM学習パラメータからベースライン遷移行列を抽出する。次に,この定式化を,ベイズフィルタを用いて更新された信念分布を維持することにより,制度分類の不完全な性質を考慮に入れた部分観測可能MDP(POMDP)に拡張し,HMM混同行列を観察モデルとした。どちらの定式化も動的プログラミングによって解決され、Gilespieの確率シミュレーションによって検証される。次に、モデルなし強化学習アルゴリズムであるQ-learningとREINFORCEをベンチマークし、明確なモデル知識なしで効果的なポリシーを学習できるかを評価する。異なる介入政策を体系的に比較した結果,PMDP は実測雑音下での MDP 性能の約95% を回復する一方,PMDP は名目操作において最も累積的な報酬と時間的差を達成していることが示された。観察品質、修復確率、割引係数の感度分析により、これらの結論の堅牢性が確認され、政策階層における大きなギャップは、統計的に$p < 0.001$である。 MDPとPOMDPのパフォーマンスのギャップは、分類精度の向上に投資するための原則的基準を提供する情報の価値を定量化する。

関連論文リスト

The Directed Prediction Change - Efficient and Trustworthy Fidelity Assessment for Local Feature Attribution Methods [4.0876210638659725]
ハイテイクな医療環境では、臨床医と規制官はモデルの意思決定プロセスを忠実に反映した説明を必要とする。 Infidelityのような既存の忠実度指標はモンテカルロ近似に依存している。本研究は,局所的特徴帰属法の忠実度を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2025-11-26T13:11:42Z)
WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。 WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-07-23T16:02:06Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference [33.14076284663493]
短期的なデータから長期的な因果効果を推定しなければならない。 MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。非パラメトリックな実装は時間間重なりの強い仮定を必要とする。アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
論文参考訳（メタデータ） (2025-01-12T20:35:28Z)
Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。 PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文参考訳（メタデータ） (2024-10-15T05:10:34Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文参考訳（メタデータ） (2021-12-31T09:50:46Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。