論文の概要: Scaling Observation-aware Planning in Uncertain Domains
- arxiv url: http://arxiv.org/abs/2605.22364v1
- Date: Thu, 21 May 2026 11:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.240383
- Title: Scaling Observation-aware Planning in Uncertain Domains
- Title(参考訳): 不確実領域における観測・認識計画のスケールアップ
- Authors: Adrian Zvizdenco, Arthur Conrado Veiga Bosquetti, Alberto Lluch Lafuente, Christoph Matheja,
- Abstract要約: この研究は、OOPの決定可能な断片の解決をスケールするための(サブ-)シンボリックテクニックを研究します。
我々は,POMDPの分解による可視観測関数を同定する新しい手法を開発した。
- 参考スコア(独自算出の注目度): 0.27332321167842666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deciding which sensing capabilities to deploy on an agent in uncertain domains is a fundamental engineering challenge, in which one balances task achievability against the high costs of hardware and processing. This problem has previously been formalized as the Optimal Observability Problem (OOP), based on the well-known Partially Observable Markov Decision Process (POMDP) model for decision-making. This work studies (sub-)symbolic techniques to scale solving of decidable fragments of the OOP, namely the Sensor Selection Problem (SSP) and the Positional Observability Problem (POP). Besides improving the original approach based on parameter synthesis, we develop a new solving method that identifies sensible observation functions via decomposition of POMDPs, improving performance by 3 and 5 orders of magnitude for instance size and runtime, respectively.
- Abstract(参考訳): エージェントにデプロイする知覚能力を決定することは、ハードウェアと処理の高コストに対してタスク達成可能性のバランスをとるという、基本的なエンジニアリング上の課題である。
この問題は、意思決定のためのよく知られた部分観測可能なマルコフ決定プロセス(POMDP)モデルに基づいて、OOP(Optimal Observability Problem)として定式化されている。
本研究は、OOPの決定可能な断片、すなわちセンサ選択問題(SSP)と位置可観測性問題(POP)の解決をスケールするための(サブ-)シンボリック手法について研究する。
パラメータ合成に基づく元来のアプローチの改善に加えて,POMDPの分解による可視観測関数の同定,インスタンスサイズと実行時の3桁,5桁の性能向上を行う新しい手法を開発した。
関連論文リスト
- Scalable Solution Methods for Dec-POMDPs with Deterministic Dynamics [20.560809517043904]
決定論的分散POMDP(Det-Dec-POMDP)のクラスを紹介する。
これはDEC-POMDPのサブクラスであり、状態と共同動作に条件付けられた決定論的遷移と観察によって特徴づけられる。
次に、Iterative Deterministic POMDP Planning (IDPP) と呼ばれる実用的な解法を提案する。
論文 参考訳(メタデータ) (2025-08-29T12:50:10Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - End-to-End Policy Gradient Method for POMDPs and Explainable Agents [2.1700203922407493]
エンド・ツー・エンド・トレーニングにより隠れた状態を推定するRLアルゴリズムを提案し、状態遷移グラフとして推定を可視化する。
実験により,提案アルゴリズムは単純なPOMDP問題を解くことができ,可視化によってエージェントの動作が人間に解釈可能であることを示した。
論文 参考訳(メタデータ) (2023-04-19T15:45:52Z) - Bridging POMDPs and Bayesian decision making for robust maintenance
planning under model uncertainty: An application to railway systems [0.7046417074932257]
利用可能なデータから直接,POMDP遷移と観測モデルパラメータを推定するフレームワークを提案する。
次に、推定分布を利用して、POMDP問題を定式化し、解決する。
我々は軌道資産の維持計画に我々のアプローチをうまく適用した。
論文 参考訳(メタデータ) (2022-12-15T16:09:47Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。
我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文 参考訳(メタデータ) (2020-06-17T04:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。