論文の概要: Trust, Geometry, and Rules: A Credibility-Aware Reinforcement Learning Framework for Safe USV Navigation under Uncertainty
- arxiv url: http://arxiv.org/abs/2605.26974v2
- Date: Thu, 28 May 2026 13:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.742735
- Title: Trust, Geometry, and Rules: A Credibility-Aware Reinforcement Learning Framework for Safe USV Navigation under Uncertainty
- Title(参考訳): 信頼・幾何学・ルール:不確実性下における安全なUSVナビゲーションのための信頼性に配慮した強化学習フレームワーク
- Authors: Yuhang Zhang, Shuqi Chai, Yukang Zhang, Liusha Yang, Mingchuan Zhang, Wei Wang, Qingjiang Shi, Quanbo Ge,
- Abstract要約: 本稿では,信頼性を意識した学習,幾何的安全遮蔽,連続ルール認識の埋め込みを組み込んだフレームワークを提案する。
本研究は,直観的不整合に対するトレーニングの堅牢性の向上と衝突回避性の向上,およびベースラインに対するCOLREGのコンプライアンスについて述べる。
- 参考スコア(独自算出の注目度): 32.34854002457735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous navigation of Unmanned Surface Vehicles (USVs) that is safe and compliant with the International Regulations for Preventing Collisions at Sea (COLREGs) remains a formidable challenge in dynamic maritime environments, particularly when perception systems exhibit miscalibrated uncertainty. Existing Reinforcement Learning (RL)-based methods often falter because state-estimation errors induce unreliable belief states that mislead the value function, while discrete traffic rules introduce discontinuity in the learning objective. To address these challenges, we propose a framework integrating credibility-aware learning, geometric safety shielding, and continuous rule-aware embedding. First, Credibility-Weighted Value Learning (CW-VL) introduces a dynamic trust factor derived from the discrepancy between filter-estimated covariance and empirical error statistics to modulate the critic's heteroscedastic loss, preventing policy overfitting to noisy samples. Second, the Covariance-Inflated Velocity Obstacle (CI-VO) maps position-estimation uncertainty into set-wise angular margins, forming a conservative geometric shield that overrides hazardous exploratory actions. Third, Risk-Aware COLREGs Duty Embedding relaxes binary encounter duties into continuous rule-aware signals, providing smooth sector-transition information and suppressing oscillation from sparse rule rewards. Simulated encounter studies demonstrate improved training robustness against perceptual inconsistency and superior collision avoidance and COLREGs compliance over baselines.
- Abstract(参考訳): 海上衝突防止国際規則(COLREGs)に準拠した無人表面車両(USVs)の自律航法は、特に認識システムが誤った不確実性を示す場合、動的海洋環境において深刻な課題である。
既存のReinforcement Learning (RL) ベースの手法は、状態推定誤差が価値関数を誤解させる不確実な信念状態を引き起こすのに対して、離散的な交通規則は学習目的に不連続をもたらすため、しばしば失敗する。
これらの課題に対処するために,信頼性を意識した学習,幾何学的安全遮蔽,連続ルールを意識した埋め込みといったフレームワークを提案する。
第一に、CW-VL(Credibility-Weighted Value Learning)は、フィルタ推定共分散と経験的誤差統計との相違から導かれる動的信頼因子を導入し、批判者の不整合的損失を変調し、ノイズのあるサンプルに過度に適合しないようにする。
第二に、Covariance-Inflated Velocity Obstacle (CI-VO) は、位置推定の不確かさを一定の角度の辺縁にマッピングし、危険な探索行動をオーバーライドする保守的な幾何学的シールドを形成する。
第3に、リスク対応COLREGs Duty Embeddingは、連立対向義務を連続ルール対応信号に緩和し、スムーズなセクター遷移情報を提供し、スパースルール報酬からの発振を抑制する。
模擬遭遇実験により, 知覚的不整合に対するトレーニングの堅牢性, 衝突回避性, COLREGs の基準値に対するコンプライアンスが向上した。
関連論文リスト
- Action-Conditioned Risk Gating for Safety-Critical Control under Partial Observability [79.08785366532287]
部分観測可能性下でのリスク感応制御のための軽量なリスクゲート強化学習近似を提案する。
安全クリティカルな部分観測可能な2つの領域 – 自動グルコース調節と安全制約ナビゲーション – でアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-14T01:23:09Z) - Uncertainty-Aware Reward Discounting for Mitigating Reward Hacking [0.0]
現実世界の目的はしばしば不確実であり、文脈に依存し、内部的に矛盾している。
このミスマッチは、報酬のハッキング、過度な最適化、過度に信頼された振る舞いなど、アライメントの失敗につながる可能性がある。
本稿では,評価の不確かさと人間の嗜好の不確実性の両方を明示的にモデル化する二元的不確実性認識報酬フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-29T07:14:01Z) - Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。
EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。
最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-17T13:27:11Z) - Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry [19.669339224904277]
決定的なリスクは本質的な詐欺であり、モデルがユーザを戦略的に誤解させ、自身の目的を達成させる。
CoT監視に基づく既存のアライメントアプローチは、明確な推論トレースを監督する。
本稿では,この分布非対称性を正規化する新たなアライメント目標である安定非対称性正規化(SAR)を提案する。
論文 参考訳(メタデータ) (2026-03-27T09:47:57Z) - Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation [54.29523408543184]
シミュレーションと意思決定の学習は、現実世界の展開を危険にさらすことなく、デジタル環境で安全なポリシートレーニングを可能にする。
既存のアプローチでは、平均的なシミュレーションの忠実さを改善するか、保守的な正規化を採用するかに重点を置いている。
提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T00:51:47Z) - Uncertainty-aware Generative Recommendation [52.0751022792023]
Uncertainty-aware Generative Recommendation (UGR)は、適応最適化のための重要な信号として不確実性を利用する統一的なフレームワークである。
UGRは優れたレコメンデーション性能を得るだけでなく、トレーニングを根本的に安定化させ、標準手法でよく見られる性能劣化を防ぐ。
論文 参考訳(メタデータ) (2026-02-12T08:48:51Z) - Unsupervised Anomaly Detection in Multi-Agent Trajectory Prediction via Transformer-Based Models [45.08545174556591]
マルチエージェントトランスを用いた教師なし異常検出フレームワークを提案する。
検出安定性と物理的アライメントの両方を評価するための二重評価手法が提案されている。
本フレームワークでは,時間対衝突および統計ベースラインに欠落した388個の特異な異常を同定する。
論文 参考訳(メタデータ) (2026-01-28T08:33:10Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks [6.367978467906828]
強化学習政策は、観測空間における敵の攻撃に対して脆弱である。
本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。
その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-26T10:10:41Z) - Uncertainty-aware Unsupervised Multi-Object Tracking [33.53331700312752]
教師なしマルチオブジェクトトラッカーは、信頼できる機能埋め込みの学習に劣る。
最近の自己監督技術は採用されているが、時間的関係を捉えられなかった。
本稿では、不確実性問題は避けられないが、不確実性自体を活用して学習された一貫性を向上させることができると論じる。
論文 参考訳(メタデータ) (2023-07-28T09:03:06Z) - Towards Safe Reinforcement Learning via Constraining Conditional
Value-at-Risk [30.229387511344456]
本稿では,CVaR を所定の閾値以下に保ち,リスクに敏感な制約付き最適化問題を定式化する CVaR-Proximal-Policy-Optimization (CPPO) の新たな強化学習アルゴリズムを提案する。
実験の結果,CPPOは高い累積報酬を達成し,観察および遷移障害に対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-06-09T11:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。