論文の概要: Markov Decision Processes with Noisy State Observation
- arxiv url: http://arxiv.org/abs/2312.08536v1
- Date: Wed, 13 Dec 2023 21:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:46:09.800877
- Title: Markov Decision Processes with Noisy State Observation
- Title(参考訳): ノイズ状態観察によるマルコフ決定過程
- Authors: Amirhossein Afsharrad, Sanjay Lall
- Abstract要約: 本稿では,マルコフ決定過程(MDP)における特定のノイズ状態観測の課題について述べる。
我々は、真の状態を誤認する確率を捉える混乱行列を用いて、この不確実性をモデル化することに集中する。
そこで本研究では,本研究で提案する2つの提案手法について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of a particular class of noisy state
observations in Markov Decision Processes (MDPs), a common issue in various
real-world applications. We focus on modeling this uncertainty through a
confusion matrix that captures the probabilities of misidentifying the true
state. Our primary goal is to estimate the inherent measurement noise, and to
this end, we propose two novel algorithmic approaches. The first, the method of
second-order repetitive actions, is designed for efficient noise estimation
within a finite time window, providing identifiable conditions for system
analysis. The second approach comprises a family of Bayesian algorithms, which
we thoroughly analyze and compare in terms of performance and limitations. We
substantiate our theoretical findings with simulations, demonstrating the
effectiveness of our methods in different scenarios, particularly highlighting
their behavior in environments with varying stationary distributions. Our work
advances the understanding of reinforcement learning in noisy environments,
offering robust techniques for more accurate state estimation in MDPs.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)における特定のノイズ状態観測の課題について述べる。
我々は、この不確かさを、真の状態を誤認する確率を捉える混乱行列を通してモデル化することに集中する。
本研究の目的は, 固有測定ノイズを推定することであり, そのために2つの新しいアルゴリズム手法を提案する。
第1の手法である第2次反復動作の手法は、有限時間窓内の効率的なノイズ推定のために設計され、システム解析のための識別可能な条件を提供する。
第2のアプローチはベイズアルゴリズムのファミリーで構成され、性能と限界の観点から徹底的に解析し比較する。
実験の結果をシミュレーションで検証し,様々なシナリオにおける手法の有効性,特に定常分布の異なる環境での挙動を明らかにした。
我々の研究は、ノイズの多い環境での強化学習の理解を深め、MDPのより正確な状態推定のための堅牢な技術を提供する。
関連論文リスト
- Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Unraveling Rodeo Algorithm Through the Zeeman Model [0.0]
任意の初期状態を考慮したハミルトニアン一般に対する固有状態と固有値スペクトルを決定するために、ロデオアルゴリズムを解く。
我々はPennylaneとQiskitのプラットフォームリソースを利用して、ハミルトンが1スピンと2スピンのゼーマンモデルによって記述されるシナリオを分析する。
論文 参考訳(メタデータ) (2024-07-16T01:29:25Z) - Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Anomaly Detection via Learning-Based Sequential Controlled Sensing [25.282033825977827]
本稿では,学習に基づく制御センシングによるバイナリプロセス間の異常検出の問題に対処する。
異常を識別するために、意思決定エージェントは、各時点でプロセスのサブセットを観察することができる。
我々の目標は、どの過程を観察するかを動的に決定するシーケンシャルな選択ポリシーを設計することである。
論文 参考訳(メタデータ) (2023-11-30T07:49:33Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Online Multi-Agent Decentralized Byzantine-robust Gradient Estimation [62.997667081978825]
本アルゴリズムは,同時摂動,セキュアな状態推定,2時間スケール近似に基づく。
また,数値実験によるアルゴリズムの性能も示す。
論文 参考訳(メタデータ) (2022-09-30T07:29:49Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z) - Proximal Causal Learning with Kernels: Two-Stage Estimation and Moment
Restriction [39.51144507601913]
我々は近位因果学習の設定に焦点をあてるが、本手法はフレドホルム積分方程式によって特徴づけられるより広い逆問題のクラスを解くのに使うことができる。
我々は,各アルゴリズムに一貫性の保証を提供し,これらの手法が合成データと実世界のタスクをシミュレートしたデータにおいて競争的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-10T17:52:48Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Spatio-temporal Sequence Prediction with Point Processes and
Self-organizing Decision Trees [0.0]
分割時間予測問題に対して,ポイントプロセスに基づく予測アルゴリズムを導入する。
本アルゴリズムは,勾配に基づく最適化手法により,これらの領域間の空間事象と相互作用を共同で学習することができる。
当社のアプローチと最先端のディープラーニングベースのアプローチを比較して,大幅なパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2020-06-25T14:04:55Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。