論文の概要: Trajectory Planning for Safe Dual Control with Active Exploration
- arxiv url: http://arxiv.org/abs/2604.15507v1
- Date: Thu, 16 Apr 2026 20:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.645491
- Title: Trajectory Planning for Safe Dual Control with Active Exploration
- Title(参考訳): アクティブ探査による安全デュアル制御のための軌道計画
- Authors: Kaleb Ben Naveed, Manveer Singh, Devansh R. Agrawal, Dimitra Panagou,
- Abstract要約: 本研究では、安全上の不確実性を低減し、ミッションレベルのコスト予算が探索によるタスクパフォーマンスの許容的低下を制限する、予算制約付き二重制御問題について検討する。
我々は,安全と予算実現の正式な保証の下で,ロバストな計画と活発な探索を統合するフレームワークであるDual-gatekeeperを提案する。
- 参考スコア(独自算出の注目度): 6.552923999990278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning safe trajectories under model uncertainty is a fundamental challenge. Robust planning ensures safety by considering worst-case realizations, yet ignores uncertainty reduction and leads to overly conservative behavior. Actively reducing uncertainty on-the-fly during a nominal mission defines the dual control problem. Most approaches address this by adding a weighted exploration term to the cost, tuned to trade off the nominal objective and uncertainty reduction, but without formal consideration of when exploration is beneficial. Moreover, safety is enforced in some methods but not in others. We study a budget-constrained dual control problem, where uncertainty is reduced subject to safety and a mission-level cost budget that limits the allowable degradation in task performance due to exploration. In this work, we propose Dual-gatekeeper, a framework that integrates robust planning with active exploration under formal guarantees of safety and budget feasibility. The key idea is that exploration is pursued only when it provides a verifiable improvement without compromising safety or violating the budget, enabling the system to balance immediate task performance with long-term uncertainty reduction in a principled manner. We provide two implementations of the framework based on different safety mechanisms and demonstrate its performance on quadrotor navigation and autonomous car racing case studies under parametric uncertainty.
- Abstract(参考訳): モデル不確実性の下で安全な軌道を計画することは根本的な課題である。
ロバストプランニングは最悪のケースの実現を考慮して安全性を確保するが、不確実性を無視し、過度に保守的な行動を引き起こす。
名目上のミッションにおいて、飛行中の不確実性を積極的に低減することは、二重制御の問題を定義する。
たいていのアプローチは、このコストに重み付けされた探索用語を加えることでこの問題に対処し、名目上の目的と不確実性の低減をトレードオフするように調整されるが、いつ探検が有益かを形式的に考慮しない。
さらに、安全はいくつかの方法で強制されるが、他の方法では強制されない。
本研究では、安全上の不確実性を低減した予算制約二重制御問題と、探索によるタスクパフォーマンスの許容的劣化を抑制するミッションレベルのコスト予算について検討する。
本研究では、安全と予算実現の正式な保証の下で、堅牢な計画と活発な探索を統合するフレームワークであるDual-gatekeeperを提案する。
鍵となる考え方は、安全を損なうことなく検証可能な改善を提供したり、予算に違反したりすることなく、システムの即時タスク性能と長期的な不確実性低減のバランスをとることができる場合にのみ、探索が追求されることである。
本研究では,異なる安全機構に基づくフレームワークの2つの実装を提供し,パラメトリック不確実性下での四輪車ナビゲーションと自律走行車レースケーススタディにおける性能を実証する。
関連論文リスト
- Risk-Constrained Belief-Space Optimization for Safe Control under Latent Uncertainty [5.99447754429793]
多くの安全クリティカル制御システムは、センサーが決定時に直接解決できないという遅延不確実性の下で動作しなければならない。
標準的な手法は期待されたパフォーマンスを最適化し、稀だが深刻な結果に対する限定的な保護を提供する。
本稿では, 力学, コスト, 安全性の制約が, 信念分布として維持される潜在パラメータに依存する, 部分的に観察された力学系について考察する。
論文 参考訳(メタデータ) (2026-04-04T21:22:44Z) - Conformal Reachability for Safe Control in Unknown Environments [29.315278038378835]
未知の力学系に対する確率的検証フレームワークを開発した。
共形予測を用いて,各段階における未知のダイナミクスに対する有効不確実区間を求める。
また,計画の地平線を最大化しつつ,名目報酬を最適化する制御ポリシーの学習手法も開発している。
論文 参考訳(メタデータ) (2026-02-03T18:01:38Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Revisiting Safe Exploration in Safe Reinforcement learning [0.098314893665023]
我々は,トレーニング中の安全性に対処する新しい測定基準であるEMCCを導入する。
EMCCは特に長期の安全違反と時折の安全違反の区別に有効である。
本稿では,アルゴリズム設計のための高速な評価を可能にする,新しい軽量なベンチマークタスクを提案する。
論文 参考訳(メタデータ) (2024-09-02T13:29:29Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。