論文の概要: Safety-critical Control Under Partial Observability: Reach-Avoid POMDP meets Belief Space Control
- arxiv url: http://arxiv.org/abs/2603.10572v1
- Date: Wed, 11 Mar 2026 09:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.673015
- Title: Safety-critical Control Under Partial Observability: Reach-Avoid POMDP meets Belief Space Control
- Title(参考訳): 部分観測可能性下での安全クリティカルコントロール:リーチ回避PMDPとブリーフ空間制御
- Authors: Matti Vahs, Joris Verhagen, Jana Tumova,
- Abstract要約: POMDPは不確実性の下でのロボット意思決定の原則的枠組みを提供する。
既存のオンラインPOMDPソルバは、単一の信仰木探索内の3つすべてに対処しようとする。
本稿では,信念空間内で直接動作する階層型証明書ベースの制御アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 10.404992912881601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) provide a principled framework for robot decision-making under uncertainty. Solving reach-avoid POMDPs, however, requires coordinating three distinct behaviors: goal reaching, safety, and active information gathering to reduce uncertainty. Existing online POMDP solvers attempt to address all three within a single belief tree search, but this unified approach struggles with the conflicting time scales inherent to these objectives. We propose a layered, certificate-based control architecture that operates directly in belief space, decoupling goal reaching, information gathering, and safety into modular components. We introduce Belief Control Lyapunov Functions (BCLFs) that formalize information gathering as a Lyapunov convergence problem in belief space, and show how they can be learned via reinforcement learning. For safety, we develop Belief Control Barrier Functions (BCBFs) that leverage conformal prediction to provide probabilistic safety guarantees over finite horizons. The resulting control synthesis reduces to lightweight quadratic programs solvable in real time, even for non-Gaussian belief representations with dimension $>10^4$. Experiments in simulation and on a space-robotics platform demonstrate real-time performance and improved safety and task success compared to state-of-the-art constrained POMDP solvers.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのロボットの意思決定のための原則的な枠組みを提供する。
しかし、到達可能なPOMDPの解決には、不確実性を軽減するために、ゴールリーチ、安全、アクティブな情報収集という3つの異なる行動を調整する必要がある。
既存のオンラインPOMDPソルバは、単一の信仰木探索において3つすべてに対処しようとするが、この統一されたアプローチは、これらの目的に固有の矛盾する時間スケールと競合する。
本稿では,信念空間を直接操作し,目標到達と情報収集,モジュールコンポーネントへの安全性を分離する階層型認証ベースの制御アーキテクチャを提案する。
本稿では,情報収集を信念空間におけるリアプノフ収束問題として定式化するBCLF(Belief Control Lyapunov Function)を紹介し,強化学習による学習方法を示す。
安全のため,有限地平線上の確率論的安全性を保証するために共形予測を利用するBCBF(Belief Control Barrier Function)を開発した。
結果として生じる制御合成は、次元が$>10^4$の非ガウス的信念表現であっても、リアルタイムで解ける軽量二次プログラムに還元される。
シミュレーションおよび宇宙ロボティクスプラットフォーム上での実験は、最先端の制約付きPOMDPソルバと比較して、リアルタイム性能を示し、安全性とタスク成功を改善した。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。