論文の概要: WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents
- arxiv url: http://arxiv.org/abs/2602.22923v1
- Date: Thu, 26 Feb 2026 12:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.675324
- Title: WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents
- Title(参考訳): WaterVideoQA: マルチモーダルエージェントによるASV-Centric Perceptionとルールコンピレント推論
- Authors: Runwei Guan, Shaofeng Liang, Ningwei Ouyang, Weichen Fei, Shanliang Yao, Wei Dai, Chenhao Ge, Penglei Sun, Xiaohui Zhu, Tao Huang, Ryan Wen Liu, Hui Xiong,
- Abstract要約: WaterVideoQAは、全水路環境向けに特別に設計された、最初の大規模で包括的なビデオ質問回答ベンチマークである。
オープンエンド海洋推論のために設計された,先駆的なマルチエージェント型ニューロシンボリックシステムであるNaviMindについても紹介する。
- 参考スコア(独自算出の注目度): 23.828845891763617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autonomous navigation has achieved remarkable success in passive perception (e.g., object detection and segmentation), it remains fundamentally constrained by a void in knowledge-driven, interactive environmental cognition. In the high-stakes domain of maritime navigation, the ability to bridge the gap between raw visual perception and complex cognitive reasoning is not merely an enhancement but a critical prerequisite for Autonomous Surface Vessels to execute safe and precise maneuvers. To this end, we present WaterVideoQA, the first large-scale, comprehensive Video Question Answering benchmark specifically engineered for all-waterway environments. This benchmark encompasses 3,029 video clips across six distinct waterway categories, integrating multifaceted variables such as volatile lighting and dynamic weather to rigorously stress-test ASV capabilities across a five-tier hierarchical cognitive framework. Furthermore, we introduce NaviMind, a pioneering multi-agent neuro-symbolic system designed for open-ended maritime reasoning. By synergizing Adaptive Semantic Routing, Situation-Aware Hierarchical Reasoning, and Autonomous Self-Reflective Verification, NaviMind transitions ASVs from superficial pattern matching to regulation-compliant, interpretable decision-making. Experimental results demonstrate that our framework significantly transcends existing baselines, establishing a new paradigm for intelligent, trustworthy interaction in dynamic maritime environments.
- Abstract(参考訳): 自律ナビゲーションは受動的知覚(物体の検出やセグメンテーションなど)において顕著な成功を収めてきたが、知識駆動型対話型環境認識の空白により、基本的に制約を受け続けている。
海上航行の高度領域では、生の視覚知覚と複雑な認知推論のギャップを埋める能力は単なる強化ではなく、自律型表面容器が安全かつ正確な操作を行うための重要な前提条件である。
この目的のために、全水路環境に特化して開発された、最初の大規模で包括的なビデオ質問回答ベンチマークであるWaterVideoQAを紹介する。
このベンチマークは、6つの異なる水路カテゴリにわたる3,029のビデオクリップを含み、揮発性照明や動的天候などの多面的変数を5階層の階層的認知フレームワークで厳格にストレステストするASV機能に統合する。
さらに、オープンエンド海洋推論のために設計された、先駆的なマルチエージェントニューロシンボリックシステムであるNaviMindを紹介する。
適応的セマンティックルーティング、状況対応階層的推論、自律的自己回帰検証を相乗化することにより、NaviMindはASVを表面パターンマッチングから規則に準拠した解釈可能な意思決定へと移行する。
実験の結果、我々のフレームワークは既存のベースラインを大幅に超越し、動的海洋環境におけるインテリジェントで信頼性の高い対話のための新しいパラダイムを確立した。
関連論文リスト
- OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions [66.84396313837765]
我々はOdysseyArenaを紹介した。OdysseyArenaは、長期的、活動的、誘導的相互作用におけるエージェント評価を再中心化する。
エージェントの誘導効率と長期発見を測る120のタスクセットを提供する。
また,OdysseyArena-Challengeを極端相互作用地平線上での応力-試験剤の安定性について紹介する。
論文 参考訳(メタデータ) (2026-02-05T16:31:43Z) - VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation [56.43007596544299]
IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。
9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
論文 参考訳(メタデータ) (2025-11-21T16:48:49Z) - Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection [54.1960918379255]
Neptune-Xは、海洋オブジェクト検出のためのデータ中心の生成-選択フレームワークである。
X-to-Maritime(X-to-Maritime)は、多様で現実的な海洋シーンを合成する多モード条件生成モデルである。
提案手法は,海上シーン合成における新しいベンチマークを設定し,検出精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-25T04:59:02Z) - MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving [85.04826012938642]
MetAdvは、現実的でダイナミックでインタラクティブな評価を可能にする、新しい対向テストプラットフォームである。
フレキシブルな3D車両モデリングと、シミュレートされた環境と物理的環境のシームレスな遷移をサポートする。
生理的信号のリアルタイムキャプチャとドライバからの行動フィードバックを可能にする。
論文 参考訳(メタデータ) (2025-08-04T03:07:54Z) - PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications [0.0]
PhysNav-DGは、古典的なセンサー融合と視覚言語モデルのセマンティックパワーを統合する新しいフレームワークである。
我々のデュアルブランチアーキテクチャは、マルチセンサー入力からナビゲーション動作を予測し、同時に詳細なチェーン・オブ・シークレットの説明を生成する。
論文 参考訳(メタデータ) (2025-05-03T17:59:26Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。