論文の概要: Foundation models on the bridge: Semantic hazard detection and safety maneuvers for maritime autonomy with vision-language models
- arxiv url: http://arxiv.org/abs/2512.24470v2
- Date: Mon, 05 Jan 2026 14:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.741832
- Title: Foundation models on the bridge: Semantic hazard detection and safety maneuvers for maritime autonomy with vision-language models
- Title(参考訳): 橋梁上の基礎モデル:視覚言語モデルを用いた海上自律のためのセマンティックハザード検出と安全操作
- Authors: Kim Alexander Christensen, Andreas Gudahl Tufte, Alexey Gusev, Rohan Sinha, Milan Ganai, Ole Andreas Alsos, Marco Pavone, Martin Steinert,
- Abstract要約: ドラフトIMOMASSコードでは、自律的な海上船舶に対して、運用設計ドメインからの離脱を検出し、オペレータに通知する事前定義されたフォールバックを入力し、直ちに人間によるオーバーライドを許可し、許可なく航海計画の変更を避けることを求めている。
我々は、視覚言語モデル(VLM)が、そのようなアウト・オブ・ディストリビューションの状況に対して意味的な認識を提供し、短時間で人間に頼りやすいフォールバック操作を備えた高速スロー異常パイプラインが、ハンドオーバウィンドウでこれを実現していると論じる。
我々はセマンティック・ルックアウト(Semantic Lookout)を紹介した。セマンティック・ルックアウト(Semantic Lookout)はカメラ専用、候補制約付きVLMフォールバック・オペレーティング・セレクタで、水価のワールドアンカーから1つの慎重なアクションを選択する。
- 参考スコア(独自算出の注目度): 15.539068238582267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The draft IMO MASS Code requires autonomous and remotely supervised maritime vessels to detect departures from their operational design domain, enter a predefined fallback that notifies the operator, permit immediate human override, and avoid changing the voyage plan without approval. Meeting these obligations in the alert-to-takeover gap calls for a short-horizon, human-overridable fallback maneuver. Classical maritime autonomy stacks struggle when the correct action depends on meaning (e.g., diver-down flag means people in the water, fire close by means hazard). We argue (i) that vision-language models (VLMs) provide semantic awareness for such out-of-distribution situations, and (ii) that a fast-slow anomaly pipeline with a short-horizon, human-overridable fallback maneuver makes this practical in the handover window. We introduce Semantic Lookout, a camera-only, candidate-constrained VLM fallback maneuver selector that selects one cautious action (or station-keeping) from water-valid, world-anchored trajectories under continuous human authority. On 40 harbor scenes we measure per-call scene understanding and latency, alignment with human consensus (model majority-of-three voting), short-horizon risk-relief on fire hazard scenes, and an on-water alert->fallback maneuver->operator handover. Sub-10 s models retain most of the awareness of slower state-of-the-art models. The fallback maneuver selector outperforms geometry-only baselines and increases standoff distance on fire scenes. A field run verifies end-to-end operation. These results support VLMs as semantic fallback maneuver selectors compatible with the draft IMO MASS Code, within practical latency budgets, and motivate future work on domain-adapted, hybrid autonomy that pairs foundation-model semantics with multi-sensor bird's-eye-view perception and short-horizon replanning. Website: kimachristensen.github.io/bridge_policy
- Abstract(参考訳): ドラフトIMOMASSコードでは、自律的かつ遠隔で監視された海洋船に、運用設計ドメインからの離脱を検出し、オペレーターに通知する事前定義されたフォールバックを入力し、直ちに人間によるオーバーライドを許可し、許可なく航海計画の変更を避けるよう要求している。
これらの義務を満たすことで、短期的かつ人間に頼りやすいフォールバック操作が求められます。
古典的な海上自律スタックは、正しい行動が意味に依存するときに苦労する(例えば、ダイバーダウンフラグは水中の人々を意味し、危険によって近くで発火する)。
我々は主張する
一 視覚言語モデル(VLM)が、こうしたアウト・オブ・ディストリビューション状況に対する意味的認識を提供し、
(II) 短時間で人間に頼りやすいフォールバック操作を備えた高速低速異常パイプラインは、ハンドオーバウィンドウでこれを実用的なものにする。
本研究では,カメラのみの候補制約付きVLMフォールバック操作セレクタであるSemantic Lookoutを紹介した。
40の港のシーンでは、コール毎のシーンの理解とレイテンシ、人間のコンセンサスとの整合性(モデルの多数決)、火災の危険シーンに対する短期的リスク救済、オンウォーターアラート>フォールバック操作->オペレーショナルハンドオーバを測定します。
Sub-10 sモデルは、最先端モデルの認識の遅さの大半を保っている。
フォールバック操作セレクタは、ジオメトリのみのベースラインを上回り、火災現場での待機距離を増加させる。
フィールドランはエンドツーエンド動作を検証する。
これらの結果は,提案したIMO MASS Codeと互換性のあるセマンティックフォールバック操作セレクタとしてVLMをサポートし,ドメイン適応型・ハイブリッドな自律性の実現に向けた将来の取り組みを,マルチセンサー鳥の目視認識と短水平リプランニングとを組み合わせて支援する。
公式サイト: Kimachristensen.github.io/bridge_policy
関連論文リスト
- FlowDrive: Energy Flow Field for End-to-End Autonomous Driving [50.89871153094958]
FlowDriveは、物理的に解釈可能なエネルギーベースのフローフィールドを導入し、セマンティックな前提と安全性をBEV空間にエンコードする新しいフレームワークである。
NAVSIM v2ベンチマークの実験では、FlowDriveが最先端のパフォーマンスを86.3で達成し、安全性と計画品質の両方において以前のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-09-17T13:51:33Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - ASMA: An Adaptive Safety Margin Algorithm for Vision-Language Drone Navigation via Scene-Aware Control Barrier Functions [9.645098673995317]
VLNを運用するドローンプラットフォームについて検討し、新しいシーン認識CBFを定式化することによって安全性を向上させる。
CBFのないベースラインシステムは、コマンドを順序づけられたランドマークのシーケンスに変換するために、モーダルな注意を持つビジョンランゲージを使用する。
ASMAは移動物体を追跡し、シーン認識CBF評価をオンザフライで実行し、追加の制約として機能する。
論文 参考訳(メタデータ) (2024-09-16T13:44:50Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - QuAD: Query-based Interpretable Neural Motion Planning for Autonomous Driving [33.609780917199394]
自動運転車は環境を理解して適切な行動を決定する必要がある。
従来のシステムは、シーン内のエージェントを見つけるためにオブジェクト検出に依存していた。
我々は、最初に占有する時間的自律性を知覚するカスケードモジュールから遠ざかる、統一的で解釈可能で効率的な自律フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T21:11:43Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。