論文の概要: Intermittently Observable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2302.11761v1
- Date: Thu, 23 Feb 2023 03:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:29:52.791398
- Title: Intermittently Observable Markov Decision Processes
- Title(参考訳): 断続的に観察可能なマルコフ決定過程
- Authors: Gongpu Chen and Soung-Chang Liew
- Abstract要約: 本稿では,制御者が信頼できない通信チャネルを通じてプロセスの状態情報を知覚するシナリオについて考察する。
地平線全体にわたる状態情報の伝達はベルヌーイ損失過程としてモデル化される。
木MDPに対する2つの有限状態近似を開発し,その近似を効率的に求める。
- 参考スコア(独自算出の注目度): 26.118176084782842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates MDPs with intermittent state information. We consider
a scenario where the controller perceives the state information of the process
via an unreliable communication channel. The transmissions of state information
over the whole time horizon are modeled as a Bernoulli lossy process. Hence,
the problem is finding an optimal policy for selecting actions in the presence
of state information losses. We first formulate the problem as a belief MDP to
establish structural results. The effect of state information losses on the
expected total discounted reward is studied systematically. Then, we
reformulate the problem as a tree MDP whose state space is organized in a tree
structure. Two finite-state approximations to the tree MDP are developed to
find near-optimal policies efficiently. Finally, we put forth a nested value
iteration algorithm for the finite-state approximations, which is proved to be
faster than standard value iteration. Numerical results demonstrate the
effectiveness of our methods.
- Abstract(参考訳): 本稿では間欠的状態情報を用いたMDPについて検討する。
我々は、コントローラが信頼できない通信チャネルを介してプロセスの状態情報を知覚するシナリオを考える。
地平線全体にわたる状態情報の伝達はベルヌーイ損失過程としてモデル化される。
したがって、状態情報損失の存在下での行動選択に最適な政策を見出すことが課題である。
まず、構造的結果を確立するため、MDPの信念として問題を定式化する。
予測総割引報酬に対する状態情報損失の影響を系統的に検討した。
そして、状態空間が木構造に整理された木MDPとして問題を再構築する。
木MDPに対する2つの有限状態近似が開発され、最適に近いポリシーを効率的に見つけることができる。
最後に,有限状態近似に対するネスト値反復アルゴリズムを提案し,標準値反復よりも高速であることが証明された。
数値実験の結果,本手法の有効性が示された。
関連論文リスト
- Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Faster Approximate Dynamic Programming by Freezing Slow States [5.6928413790238865]
高速低速構造を持つ無限水平マルコフ決定過程(MDP)を考察する。
このような構造は、シーケンシャルな決定を高周波で行う必要がある実世界の問題では一般的である。
本稿では、遅い状態の「凍結」という概念に基づく近似動的プログラミングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-03T01:35:24Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - SIDE: I Infer the State I Want to Learn [17.993973801986677]
本稿では,値分解のための状態推論(State Inference for Value Decomposition, SIDE)と呼ばれる新しい値分解フレームワークを提案する。
SIDEは、任意の値分解法や、Dec-POMDPの場合の他の種類のマルチエージェントアルゴリズムにも拡張できる。
論文 参考訳(メタデータ) (2021-05-13T12:26:02Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Point-Based Methods for Model Checking in Partially Observable Markov
Decision Processes [36.07746952116073]
部分的に観測可能なマルコフ決定過程(POMDP)において線形時間論理式を満たすポリシーを合成する手法を提案する。
本稿では,所望の論理式を満たす最大確率を効率的に近似するために,ポイントベースの値反復法を提案する。
我々は,提案手法を大規模POMDPドメインに拡張し,その結果のポリシーの性能に強い拘束力を与えることを示した。
論文 参考訳(メタデータ) (2020-01-11T23:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。