論文の概要: Learning to Navigate Under Imperfect Perception: Conformalised Segmentation for Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.18485v1
- Date: Tue, 21 Oct 2025 10:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.42397
- Title: Learning to Navigate Under Imperfect Perception: Conformalised Segmentation for Safe Reinforcement Learning
- Title(参考訳): 不完全知覚下での学習: 安全な強化学習のためのコンフォーマル化されたセグメンテーション
- Authors: Daniel Bethell, Simos Gerasimou, Radu Calinescu, Calum Imrie,
- Abstract要約: COPPOLは、コンフォメーション駆動の知覚から政治への学習手法である。
分散のない有限サンプル安全性保証をセマンティックセグメンテーションに統合する。
安全でない領域のほぼ完全な検出を実現し、ナビゲーション中に有害な違反を減らす。
- 参考スコア(独自算出の注目度): 6.255435016547602
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reliable navigation in safety-critical environments requires both accurate hazard perception and principled uncertainty handling to strengthen downstream safety handling. Despite the effectiveness of existing approaches, they assume perfect hazard detection capabilities, while uncertainty-aware perception approaches lack finite-sample guarantees. We present COPPOL, a conformal-driven perception-to-policy learning approach that integrates distribution-free, finite-sample safety guarantees into semantic segmentation, yielding calibrated hazard maps with rigorous bounds for missed detections. These maps induce risk-aware cost fields for downstream RL planning. Across two satellite-derived benchmarks, COPPOL increases hazard coverage (up to 6x) compared to comparative baselines, achieving near-complete detection of unsafe regions while reducing hazardous violations during navigation (up to approx 50%). More importantly, our approach remains robust to distributional shift, preserving both safety and efficiency.
- Abstract(参考訳): 安全クリティカルな環境での信頼性の高いナビゲーションは、下流の安全処理を強化するために、正確なハザード認識と原則化された不確実性ハンドリングの両方を必要とする。
既存のアプローチの有効性にもかかわらず、完全なハザード検出能力を前提としており、不確実性を認識した認識アプローチは有限サンプル保証を欠いている。
我々は,分布のない有限サンプル安全保証をセマンティックセグメンテーションに統合し,誤り検出のための厳密な境界を持つキャリブレーションされたハザードマップを生成する,コンフォメーション駆動型認識-政治学習アプローチであるCOPPOLを提案する。
これらのマップは、下流RL計画のためのリスク対応コストフィールドを誘導する。
2つの衛星由来のベンチマークで、COPPOLは、比較ベースラインと比較してハザードカバレッジ(最大6倍)を高め、安全でない領域をほぼ完全に検出し、ナビゲーション中に有害な違反(最大50%)を減らす。
さらに重要なことは、我々のアプローチは、安全と効率の両方を保ちながら、分散シフトに対して堅牢なままです。
関連論文リスト
- Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。