論文の概要: NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding
- arxiv url: http://arxiv.org/abs/2510.27481v1
- Date: Fri, 31 Oct 2025 14:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.119303
- Title: NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding
- Title(参考訳): NAUTILUS:水中シーン理解のための大規模マルチモーダルモデル
- Authors: Wei Xu, Cheng Wang, Dingkang Liang, Zongchuang Zhao, Xingyu Jiang, Peng Zhang, Xiang Bai,
- Abstract要約: 本研究では,水中の自動探査を目的とした水中シーン理解手法について検討する。
NautDataは、8つの水中シーン理解タスクをサポートする1.45Mイメージテキストペアを含むデータセットである。
本稿では,透明な水中情報を明示的に復元するVFEモジュールを提案する。
- 参考スコア(独自算出の注目度): 60.76337064425815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater exploration offers critical insights into our planet and attracts increasing attention for its broader applications in resource exploration, national security, etc. We study the underwater scene understanding methods, which aim to achieve automated underwater exploration. The underwater scene understanding task demands multi-task perceptions from multiple granularities. However, the absence of large-scale underwater multi-task instruction-tuning datasets hinders the progress of this research. To bridge this gap, we construct NautData, a dataset containing 1.45 M image-text pairs supporting eight underwater scene understanding tasks. It enables the development and thorough evaluation of the underwater scene understanding models. Underwater image degradation is a widely recognized challenge that interferes with underwater tasks. To improve the robustness of underwater scene understanding, we introduce physical priors derived from underwater imaging models and propose a plug-and-play vision feature enhancement (VFE) module, which explicitly restores clear underwater information. We integrate this module into renowned baselines LLaVA-1.5 and Qwen2.5-VL and build our underwater LMM, NAUTILUS. Experiments conducted on the NautData and public underwater datasets demonstrate the effectiveness of the VFE module, consistently improving the performance of both baselines on the majority of supported tasks, thus ensuring the superiority of NAUTILUS in the underwater scene understanding area. Data and models are available at https://github.com/H-EmbodVis/NAUTILUS.
- Abstract(参考訳): 地下水探査は地球に重要な洞察を与え、資源探査や国家安全保障などにおける幅広い応用に注目が集まる。
本研究では,水中の自動探査を目的とした水中シーン理解手法について検討する。
水中のシーン理解タスクは、複数の粒度からマルチタスクの知覚を必要とする。
しかし、大規模な水中マルチタスク・インストラクション・チューニング・データセットが存在しないため、この研究の進展は妨げられる。
このギャップを埋めるため、水中のシーン理解タスクをサポートする1.45Mイメージテキストペアを含むデータセットであるNautDataを構築した。
水中シーン理解モデルの開発と徹底的な評価を可能にする。
水中画像の劣化は、水中作業を妨げることが広く認識されている課題である。
水中環境理解のロバスト性を改善するため,水中画像モデルから導かれる物理的先行情報を導入し,鮮明な水中情報を明示的に復元するプラグイン・アンド・プレイ視覚特徴強調(VFE)モジュールを提案する。
我々はこのモジュールを有名なベースラインであるLLaVA-1.5とQwen2.5-VLに統合し、水中LMMであるNAUTILUSを構築します。
ナウトデータおよび公的な水中データセットを用いて行われた実験は、VFEモジュールの有効性を実証し、サポート対象のタスクの大部分において、両方のベースラインの性能を一貫して改善し、水中のシーン理解領域におけるNAUTILUSの優位性を確保する。
データとモデルはhttps://github.com/H-EmbodVis/NAUTILUSで入手できる。
関連論文リスト
- UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding [54.16709436340606]
視覚言語モデル(VLM)は自然界の理解において顕著な成功を収めた。
水中画像は、厳しい光の減衰、色歪み、懸濁粒子散乱などの固有の課題を呈している。
水中視覚言語理解のためのベンチマークであるUWBenchを紹介する。
論文 参考訳(メタデータ) (2025-10-21T03:32:15Z) - DUViN: Diffusion-Based Underwater Visual Navigation via Knowledge-Transferred Depth Features [47.88998580611257]
本研究では,知識伝達深度特性を用いた拡散型水中ビジュアルナビゲーションポリシーDUViNを提案する。
DuViNは、事前に構築された地図に頼ることなく、障害物を回避し、地形に対して安全かつ認識の高い高度を維持するよう車両を誘導する。
シミュレーションおよび実世界の水中環境における実験は、我々のアプローチの有効性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-03T03:43:12Z) - Advancing Marine Research: UWSAM Framework and UIIS10K Dataset for Precise Underwater Instance Segmentation [110.02397462607449]
大規模な水中インスタンスセグメンテーションデータセットであるUIIS10Kを提案する。
次に,水中インスタンスの自動・高精度セグメンテーションのための効率的なモデルであるUWSAMを紹介する。
複数の水中インスタンスデータセット上での最先端手法よりも優れた性能向上を実現し,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2025-05-21T14:36:01Z) - Improving underwater semantic segmentation with underwater image quality attention and muti-scale aggregation attention [13.73105543582749]
UnderWater SegFormer (UWSegFormer) は、低品質水中画像のセマンティックセグメンテーションのためのトランスフォーマーベースのフレームワークである。
提案手法は,SOTA法と比較した場合,分割完全性,境界明細度,主観的知覚的詳細性の点で有利である。
論文 参考訳(メタデータ) (2025-03-30T12:47:56Z) - WaterMono: Teacher-Guided Anomaly Masking and Enhancement Boosting for Robust Underwater Self-Supervised Monocular Depth Estimation [4.909989222186828]
深度推定と画像強調のための新しいフレームワークであるWaterMonoを提案する。
1)教師が指導する異常マスクを用いて画像内の動的領域を識別し,(2)水中画像形成モデルと組み合わせた深度情報を用いて深度推定タスクに寄与する拡張画像を生成し,(3)回転蒸留手法を用いてモデルの回転ロバスト性を高める。
論文 参考訳(メタデータ) (2024-06-19T08:49:45Z) - Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。
第1次大規模水中塩分分節データセット(USIS10K)を構築した。
本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T06:17:33Z) - Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion [30.122666238416716]
正確な地球深度データを用いて水中画像を生成する新しいパイプラインを提案する。
このアプローチは、水中深度推定のための教師付きモデルのトレーニングを容易にする。
我々は、特別に作成された水中、深度、テキストデータ三重項に基づいて訓練された独自のDepth2Underwater ControlNetを導入する。
論文 参考訳(メタデータ) (2023-12-19T08:56:33Z) - Virtual Underwater Datasets for Autonomous Inspections [0.0]
本研究では,実験室で収集したアイテムの写真から,ベスポークデータセットを構築した。
GAN(Generative Adversarial Networks)は、実験対象のデータセットを水中ドメインに変換するために使用される。
その結果得られた画像は、実際の水中の船体画像と比較すると、実際の水中環境とよく似ている。
論文 参考訳(メタデータ) (2022-09-13T14:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。