論文の概要: Smoother Entropy for Active State Trajectory Estimation and Obfuscation
in POMDPs
- arxiv url: http://arxiv.org/abs/2108.10227v1
- Date: Thu, 19 Aug 2021 00:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:21:48.345745
- Title: Smoother Entropy for Active State Trajectory Estimation and Obfuscation
in POMDPs
- Title(参考訳): POMDPのアクティブ状態軌道推定と難読化のためのスモーザーエントロピー
- Authors: Timothy L. Molloy and Girish N. Nair
- Abstract要約: よりスムーズなエントロピーの最適化は オルタナティブアプローチと比較して 軌道推定と難読化に 繋がる
コンケーブコストとコスト・ツー・ゴー機能によるアクティブ・アセスメントと難読化の両面での信念-状態 MDP の再構成を同定する。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of controlling a partially observed Markov decision
process (POMDP) to either aid or hinder the estimation of its state trajectory
by optimising the conditional entropy of the state trajectory given
measurements and controls, a quantity we dub the smoother entropy. Our
consideration of the smoother entropy contrasts with previous active state
estimation and obfuscation approaches that instead resort to measures of
marginal (or instantaneous) state uncertainty due to tractability concerns. By
establishing novel expressions of the smoother entropy in terms of the usual
POMDP belief state, we show that our active estimation and obfuscation problems
can be reformulated as Markov decision processes (MDPs) that are fully observed
in the belief state. Surprisingly, we identify belief-state MDP reformulations
of both active estimation and obfuscation with concave cost and cost-to-go
functions, which enables the use of standard POMDP techniques to construct
tractable bounded-error (approximate) solutions. We show in simulations that
optimisation of the smoother entropy leads to superior trajectory estimation
and obfuscation compared to alternative approaches.
- Abstract(参考訳): 本研究では, 状態軌跡の条件エントロピーを最適化し, より滑らかなエントロピーを掘り下げることにより, 状態軌跡の推定を助長または妨害するために, 部分的に観察されたマルコフ決定過程(POMDP)を制御する問題について検討する。
より滑らかなエントロピーの考察は、従前の能動状態推定と難読化アプローチとを対比し、その代わりに、移動可能性の懸念による限界(あるいは瞬時)状態の不確実性の測定に依存する。
通常のPOMDPの信念状態からスムーズなエントロピーの新たな表現を確立することで、我々のアクティブな推定と難読化問題は、信念状態において完全に観察されるマルコフ決定過程(MDP)として再構成可能であることを示す。
意外なことに,我々はコンケーブコストとコスト・ツー・ゴー機能によるアクティブな推定と難読化の両方の信念状態のMDP再構成を同定し,標準的なPOMDP技術を用いてトラクタブル・バウンド・エラー(近似)ソリューションを構築することができる。
よりスムーズなエントロピーの最適化は、代替手法と比較して軌道推定と難読化に優れていることを示す。
関連論文リスト
- Asymptotically Optimal Change Detection for Unnormalized Pre- and Post-Change Distributions [65.38208224389027]
本稿では,非正規化前および後の変化分布のみがアクセス可能である場合にのみ,変化を検出する問題に対処する。
提案手法は,最適性能を示すことが知られている累積サム統計量の推定に基づく。
論文 参考訳(メタデータ) (2024-10-18T17:13:29Z) - Entropic Matching for Expectation Propagation of Markov Jump Processes [38.60042579423602]
本稿では,エントロピックマッチングフレームワークに基づく新たなトラクタブル推論手法を提案する。
簡単な近似分布の族に対して閉形式の結果を提供することにより,本手法の有効性を実証する。
我々は、近似予測法を用いて、基礎となるパラメータの点推定のための式を導出する。
論文 参考訳(メタデータ) (2023-09-27T12:07:21Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Finite-Time Analysis of Natural Actor-Critic for POMDPs [29.978816372127085]
部分観測されたマルコフ決定過程(POMDP)に対する強化学習問題について考察する。
本稿では、ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法について考察する。
より大きなブロックサイズを用いて,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。
論文 参考訳(メタデータ) (2022-02-20T07:42:00Z) - Entropy-Regularized Partially Observed Markov Decision Processes [3.42658286826597]
状態, 観測, 制御の不確実性を記述するエントロピー項で定式化されたコスト関数を持つ部分観測マルコフ決定過程(POMDP)について検討した。
標準POMDP技術はエントロピー規則化POMDPに対して有界エラー解を提供する。
我々の連立エントロピーは, アクティブ状態推定の新しい定式化を構成するため, 特に驚くべき結果である。
論文 参考訳(メタデータ) (2021-12-22T22:44:44Z) - Q-Learning for MDPs with General Spaces: Convergence and Near Optimality
via Quantization under Weak Continuity [2.685668802278156]
状態と行動の量子化による標準ボレル MDP のQ-ラーニングが限界に収束することを示す。
本稿では,連続型MDPに対するQ-ラーニングの適用性について,非常に一般的な収束と近似結果を示す。
論文 参考訳(メタデータ) (2021-11-12T15:47:10Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。