論文の概要: Finite Memory Belief Approximation for Optimal Control in Partially Observable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2601.03132v1
- Date: Tue, 06 Jan 2026 16:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.007429
- Title: Finite Memory Belief Approximation for Optimal Control in Partially Observable Markov Decision Processes
- Title(参考訳): 部分観測可能なマルコフ決定過程における最適制御のための有限メモリ信念近似
- Authors: Mintae Kim,
- Abstract要約: 部分観測可能(PO)最適制御(SOC)問題に対する有限メモリ信念近似について検討した。
我々は,情報損失を制御性能に直接関連付ける計量に基づく理論を開発した。
- 参考スコア(独自算出の注目度): 1.614301262383079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study finite memory belief approximation for partially observable (PO) stochastic optimal control (SOC) problems. While belief states are sufficient for SOC in partially observable Markov decision processes (POMDPs), they are generally infinite-dimensional and impractical. We interpret truncated input-output (IO) histories as inducing a belief approximation and develop a metric-based theory that directly relates information loss to control performance. Using the Wasserstein metric, we derive policy-conditional performance bounds that quantify value degradation induced by finite memory along typical closed-loop trajectories. Our analysis proceeds via a fixed-policy comparison: we evaluate two cost functionals under the same closed-loop execution and isolate the effect of replacing the true belief by its finite memory approximation inside the belief-level cost. For linear quadratic Gaussian (LQG) systems, we provide closed-form belief mismatch evaluation and empirically validate the predicted mechanism, demonstrating that belief mismatch decays approximately exponentially with memory length and that the induced performance mismatch scales accordingly. Together, these results provide a metric-aware characterization of what finite memory belief approximation can and cannot achieve in PO settings.
- Abstract(参考訳): 半可観測(PO)確率最適制御(SOC)問題に対する有限メモリ信念近似について検討した。
信念状態は部分的に観測可能なマルコフ決定過程(POMDP)においてSOCに十分であるが、一般に無限次元で非現実的である。
我々は,情報損失を制御性能に直接関連付ける計量に基づく理論を考案し,信頼度近似を導出するものとして,truncated input-output (IO)ヒストリーを解釈する。
ワッサーシュタイン計量を用いて、有限メモリによって誘導される値劣化を典型的な閉ループ軌道に沿って定量化する政策条件付き性能境界を導出する。
我々は、同じ閉ループ実行下での2つのコスト関数を評価し、信念レベルのコスト内での有限メモリ近似によって真の信念を置き換える効果を分離する。
線形二次ガウス (LQG) システムでは, クローズド形式の信念ミスマッチの評価を行い, 予測されたメカニズムを実証的に検証し, 信念ミスマッチがメモリ長とほぼ指数関数的に崩壊し, 誘導された性能ミスマッチがスケールすることを示した。
これらとともに、これらの結果は、有限メモリ信念の近似がPO設定でできることと達成できないことの計量的特徴を提供する。
関連論文リスト
- Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Finite-Time Analysis of Natural Actor-Critic for POMDPs [29.978816372127085]
部分観測されたマルコフ決定過程(POMDP)に対する強化学習問題について考察する。
本稿では、ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法について考察する。
より大きなブロックサイズを用いて,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。
論文 参考訳(メタデータ) (2022-02-20T07:42:00Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。