論文の概要: Leveraging the Value of Information in POMDP Planning
- arxiv url: http://arxiv.org/abs/2604.01434v1
- Date: Wed, 01 Apr 2026 22:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.080108
- Title: Leveraging the Value of Information in POMDP Planning
- Title(参考訳): POMDP計画における情報価値の活用
- Authors: Zakariya Laouar, Qi Heng Ho, Zachary Sunberg,
- Abstract要約: 各信念における情報の価値を生かした動的プログラミングフレームワークを導入する。
本稿では,モンテカルロ木探索アルゴリズムである情報モンテカルロ計画法(VOIMCP)を提案する。
我々は、VOI推論フレームワークのほぼ最適性に関する理論的保証を提供し、VOIMCPの非漸近収束境界を導出する。
- 参考スコア(独自算出の注目度): 7.019683407682642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially observable Markov decision processes (POMDPs) offer a principled formalism for planning under state and transition uncertainty. Despite advances made towards solving large POMDPs, obtaining performant policies under limited planning time remains a major challenge due to the curse of dimensionality and the curse of history. For many POMDP problems, the value of information (VOI) - the expected performance gain from reasoning about observations - varies over the belief space. We introduce a dynamic programming framework that exploits this structure by conditionally processing observations based on the value of information at each belief. Building on this framework, we propose Value of Information Monte Carlo planning (VOIMCP), a Monte Carlo Tree Search algorithm that allocates computational effort more efficiently by selectively disregarding observation information when the VOI is low, avoiding unnecessary branching of observations. We provide theoretical guarantees on the near-optimality of our VOI reasoning framework and derive non-asymptotic convergence bounds for VOIMCP. Simulation evaluations demonstrate that VOIMCP outperforms baselines on several POMDP benchmarks.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、状態と遷移の不確実性の下での計画に原則化された形式主義を提供する。
大規模なPOMDPの解決に向けた進歩にもかかわらず、限られた計画期間下での実績ある政策の獲得は、次元の呪いと歴史の呪いによる大きな課題である。
多くのPOMDP問題に対して、情報の価値(VOI) - 観測に関する推論から得られる期待性能 - は、信念空間によって異なる。
本稿では,各信念における情報の価値に基づいて,観察を条件付きで処理することで,この構造を利用する動的プログラミングフレームワークを提案する。
本研究では,モンテカルロ木探索アルゴリズムである情報モンテカルロ計画(VOIMCP)を提案する。このアルゴリズムは,VOIが低い場合に観測情報を選択的に無視し,不要な観測分岐を避けることにより,より効率的に計算作業を割り当てる。
我々は、VOI推論フレームワークのほぼ最適性に関する理論的保証を提供し、VOIMCPの非漸近収束境界を導出する。
シミュレーション評価により、VOIMCPはいくつかのPOMDPベンチマークでベースラインを上回っていることが示された。
関連論文リスト
- Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [10.675160254513615]
連続的な部分観測可能なマルコフ決定プロセスのための新しいポリシー最適化フレームワークを導入する。
本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。
提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文 参考訳(メタデータ) (2025-05-22T14:45:46Z) - A Finite-State Controller Based Offline Solver for Deterministic POMDPs [18.518047404768378]
DetPOMDPに対するモンテカルロ値イテレーション(MCVI)アルゴリズムの適応であるDetMCVIを提案する。
DetMCVIは、DetPOMDPの既存のベースラインを上回り、高い成功率で大きな問題を解決する。
また,実際の移動ロボットの森林マッピングシナリオにおいて,アルゴリズムの性能を検証する。
論文 参考訳(メタデータ) (2025-05-01T15:30:26Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Improved Monte Carlo Planning via Causal Disentanglement for Structurally-Decomposed Markov Decision Processes [0.9768138268100163]
本稿では,MDPの時間的因果グラフを独立成分に分割するために,因果解離を利用した構造分解型MDP(SD-MDP)を提案する。
様々な物流および金融分野のベンチマークよりも優れた政策性能を示す。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Value of structural health information in partially observable
stochastic environments [0.0]
情報の価値(VoI)と構造健康モニタリング(VoSHM)の理論的・計算的基礎を紹介し,研究する。
この結果から,POMDP政策はVoIの概念を本質的に活用し,各決定ステップにおいて最適な方法で観測行動の導出を行うことが示唆された。
論文 参考訳(メタデータ) (2019-12-28T22:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。