Fugu-MT 論文翻訳(概要): WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents

論文の概要: WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents

arxiv url: http://arxiv.org/abs/2602.22923v1
Date: Thu, 26 Feb 2026 12:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.675324
Title: WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents
Title（参考訳）: WaterVideoQA: マルチモーダルエージェントによるASV-Centric Perceptionとルールコンピレント推論
Authors: Runwei Guan, Shaofeng Liang, Ningwei Ouyang, Weichen Fei, Shanliang Yao, Wei Dai, Chenhao Ge, Penglei Sun, Xiaohui Zhu, Tao Huang, Ryan Wen Liu, Hui Xiong,
Abstract要約: WaterVideoQAは、全水路環境向けに特別に設計された、最初の大規模で包括的なビデオ質問回答ベンチマークである。オープンエンド海洋推論のために設計された,先駆的なマルチエージェント型ニューロシンボリックシステムであるNaviMindについても紹介する。
参考スコア（独自算出の注目度）: 23.828845891763617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While autonomous navigation has achieved remarkable success in passive perception (e.g., object detection and segmentation), it remains fundamentally constrained by a void in knowledge-driven, interactive environmental cognition. In the high-stakes domain of maritime navigation, the ability to bridge the gap between raw visual perception and complex cognitive reasoning is not merely an enhancement but a critical prerequisite for Autonomous Surface Vessels to execute safe and precise maneuvers. To this end, we present WaterVideoQA, the first large-scale, comprehensive Video Question Answering benchmark specifically engineered for all-waterway environments. This benchmark encompasses 3,029 video clips across six distinct waterway categories, integrating multifaceted variables such as volatile lighting and dynamic weather to rigorously stress-test ASV capabilities across a five-tier hierarchical cognitive framework. Furthermore, we introduce NaviMind, a pioneering multi-agent neuro-symbolic system designed for open-ended maritime reasoning. By synergizing Adaptive Semantic Routing, Situation-Aware Hierarchical Reasoning, and Autonomous Self-Reflective Verification, NaviMind transitions ASVs from superficial pattern matching to regulation-compliant, interpretable decision-making. Experimental results demonstrate that our framework significantly transcends existing baselines, establishing a new paradigm for intelligent, trustworthy interaction in dynamic maritime environments.
Abstract（参考訳）: 自律ナビゲーションは受動的知覚(物体の検出やセグメンテーションなど)において顕著な成功を収めてきたが、知識駆動型対話型環境認識の空白により、基本的に制約を受け続けている。海上航行の高度領域では、生の視覚知覚と複雑な認知推論のギャップを埋める能力は単なる強化ではなく、自律型表面容器が安全かつ正確な操作を行うための重要な前提条件である。この目的のために、全水路環境に特化して開発された、最初の大規模で包括的なビデオ質問回答ベンチマークであるWaterVideoQAを紹介する。このベンチマークは、6つの異なる水路カテゴリにわたる3,029のビデオクリップを含み、揮発性照明や動的天候などの多面的変数を5階層の階層的認知フレームワークで厳格にストレステストするASV機能に統合する。さらに、オープンエンド海洋推論のために設計された、先駆的なマルチエージェントニューロシンボリックシステムであるNaviMindを紹介する。適応的セマンティックルーティング、状況対応階層的推論、自律的自己回帰検証を相乗化することにより、NaviMindはASVを表面パターンマッチングから規則に準拠した解釈可能な意思決定へと移行する。実験の結果、我々のフレームワークは既存のベースラインを大幅に超越し、動的海洋環境におけるインテリジェントで信頼性の高い対話のための新しいパラダイムを確立した。

関連論文リスト

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文参考訳（メタデータ） (2026-03-05T17:02:22Z)
OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions [66.84396313837765]
我々はOdysseyArenaを紹介した。OdysseyArenaは、長期的、活動的、誘導的相互作用におけるエージェント評価を再中心化する。エージェントの誘導効率と長期発見を測る120のタスクセットを提供する。また,OdysseyArena-Challengeを極端相互作用地平線上での応力-試験剤の安定性について紹介する。
論文参考訳（メタデータ） (2026-02-05T16:31:43Z)
AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation [13.973823761671673]
AirHuntは、屋外環境でゼロショットの一般化を伴うオープンセットオブジェクトを効率的に検出する、空中オブジェクトナビゲーションシステムである。 AirHuntは、VLMセマンティック推論とパス計画の相乗的インターフェースを確立する、デュアルパスの非同期アーキテクチャを備えている。多様なオブジェクトナビゲーションタスクや環境にまたがってAirHuntを評価し,ナビゲーションエラーの低減と飛行時間短縮を図った。
論文参考訳（メタデータ） (2026-01-19T05:50:03Z)
VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。 VLingNav(VLAモデル)を提案する。
論文参考訳（メタデータ） (2026-01-13T15:43:43Z)
IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation [56.43007596544299]
IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。 9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
論文参考訳（メタデータ） (2025-11-21T16:48:49Z)
Unified Multimodal Vessel Trajectory Prediction with Explainable Navigation Intention [18.699213433572996]
船舶軌道予測は、インテリジェント海洋システムの基本である。既存の船舶軌道予測手法は、限られたシナリオ適用性と説明性に乏しい。本稿では,説明可能なナビゲーション意図を取り入れた統合型船舶軌道予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-18T08:56:30Z)
Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection [54.1960918379255]
Neptune-Xは、海洋オブジェクト検出のためのデータ中心の生成-選択フレームワークである。 X-to-Maritime(X-to-Maritime)は、多様で現実的な海洋シーンを合成する多モード条件生成モデルである。提案手法は,海上シーン合成における新しいベンチマークを設定し,検出精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-09-25T04:59:02Z)
MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving [85.04826012938642]
MetAdvは、現実的でダイナミックでインタラクティブな評価を可能にする、新しい対向テストプラットフォームである。フレキシブルな3D車両モデリングと、シミュレートされた環境と物理的環境のシームレスな遷移をサポートする。生理的信号のリアルタイムキャプチャとドライバからの行動フィードバックを可能にする。
論文参考訳（メタデータ） (2025-08-04T03:07:54Z)
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications [0.0]
PhysNav-DGは、古典的なセンサー融合と視覚言語モデルのセマンティックパワーを統合する新しいフレームワークである。我々のデュアルブランチアーキテクチャは、マルチセンサー入力からナビゲーション動作を予測し、同時に詳細なチェーン・オブ・シークレットの説明を生成する。
論文参考訳（メタデータ） (2025-05-03T17:59:26Z)
NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。既存の強化学習手法は、直接新しい環境に移行することはできない。我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文参考訳（メタデータ） (2025-02-19T17:27:47Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。