論文の概要: MARINER: A 3E-Driven Benchmark for Fine-Grained Perception and Complex Reasoning in Open-Water Environments
- arxiv url: http://arxiv.org/abs/2604.08615v1
- Date: Thu, 09 Apr 2026 04:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.491631
- Title: MARINER: A 3E-Driven Benchmark for Fine-Grained Perception and Complex Reasoning in Open-Water Environments
- Title(参考訳): MARINER: オープンウォーター環境における微粒化知覚と複雑推論のための3E駆動ベンチマーク
- Authors: Xingming Liao, Ning Chen, Muying Shu, Yunpeng Yin, Peijian Zeng, Zhuowei Wang, Nankai Lin, Lianglun Cheng,
- Abstract要約: 現実世界のオープンウォーター環境におけるきめ細かい視覚的理解と高レベルの推論は、まだ未調査のままである。
本稿では,新しいEntity-Environment-Event (3E)パラダイムに基づいて構築された総合ベンチマークであるMARINERを紹介する。
MARINERには、16,629のマルチソース海洋画像があり、63の細粒度血管カテゴリ、多様な有害環境、5つの典型的な動的海洋インシデントがある。
- 参考スコア(独自算出の注目度): 7.1480486682741216
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-grained visual understanding and high-level reasoning in real-world open-water environments remain under-explored due to the lack of dedicated benchmarks. We introduce MARINER, a comprehensive benchmark built under the novel Entity-Environment-Event (3E) paradigm. MARINER contains 16,629 multi-source maritime images with 63 fine-grained vessel categories, diverse adverse environments, and 5 typical dynamic maritime incidents, covering fine-grained classification, object detection, and visual question answering tasks. We conduct extensive evaluations on mainstream Multimodal Large language models (MLLMs) and establish baselines, revealing that even advanced models struggle with fine-grained discrimination and causal reasoning in complex marine scenes. As a dedicated maritime benchmark, MARINER fills the gap of realistic and cognitive-level evaluation for maritime multimodal understanding, and promotes future research on robust vision-language models for open-water applications. Appendix and supplementary materials are available at https://lxixim.github.io/MARINER.
- Abstract(参考訳): 現実世界のオープンウォーター環境におけるきめ細かい視覚的理解と高レベルの推論は、専用のベンチマークが欠如しているため、未調査のままである。
本稿では,新しいEntity-Environment-Event (3E)パラダイムに基づいて構築された総合ベンチマークであるMARINERを紹介する。
MARINERには、16,629のマルチソース海洋画像があり、63の細粒度血管カテゴリ、多様な有害環境、そして5つの典型的な動的海洋インシデントがあり、細粒度分類、オブジェクト検出、視覚的質問応答タスクをカバーしている。
我々は,主流のマルチモーダル大言語モデル (MLLM) を広範囲に評価し,ベースラインを確立するとともに,高度なモデルでさえ複雑な海洋シーンにおける微粒な識別と因果推論に苦慮していることを明らかにする。
MARINERは、海洋マルチモーダル理解のための現実的および認知的評価のギャップを埋め、オープンウォーターアプリケーションのための堅牢な視覚言語モデルに関する将来の研究を促進する。
補助材料はhttps://lxixim.github.io/MARINER.comで入手できる。
関連論文リスト
- WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents [23.828845891763617]
WaterVideoQAは、全水路環境向けに特別に設計された、最初の大規模で包括的なビデオ質問回答ベンチマークである。
オープンエンド海洋推論のために設計された,先駆的なマルチエージェント型ニューロシンボリックシステムであるNaviMindについても紹介する。
論文 参考訳(メタデータ) (2026-02-26T12:12:40Z) - UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding [54.16709436340606]
視覚言語モデル(VLM)は自然界の理解において顕著な成功を収めた。
水中画像は、厳しい光の減衰、色歪み、懸濁粒子散乱などの固有の課題を呈している。
水中視覚言語理解のためのベンチマークであるUWBenchを紹介する。
論文 参考訳(メタデータ) (2025-10-21T03:32:15Z) - MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment [56.88334234553316]
我々は,水中オープンボキャブラリ(OV)セグメンテーションのための大規模なベンチマークであるtextbfMARIS (underlineMarine Open-Vocabulary underlineInstance underlineSegmentation)を紹介した。
当社のフレームワークは、既存のOVベースラインであるIn-DomainとCross-Domainの両方を一貫して上回ります。
論文 参考訳(メタデータ) (2025-10-17T07:50:58Z) - OceanGym: A Benchmark Environment for Underwater Embodied Agents [69.56465775825275]
OceanGymは、海洋水中のエンボディエージェントに関する最初の総合的なベンチマークである。
それは、最も要求の多い現実世界環境の1つでAIを前進させるように設計されている。
高忠実で厳格に設計されたプラットフォームを提供することで、OceanGymは堅牢なエンボディAIを開発するためのテストベッドを確立する。
論文 参考訳(メタデータ) (2025-09-30T17:09:32Z) - Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection [54.1960918379255]
Neptune-Xは、海洋オブジェクト検出のためのデータ中心の生成-選択フレームワークである。
X-to-Maritime(X-to-Maritime)は、多様で現実的な海洋シーンを合成する多モード条件生成モデルである。
提案手法は,海上シーン合成における新しいベンチマークを設定し,検出精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-25T04:59:02Z) - MID: A Comprehensive Shore-Based Dataset for Multi-Scale Dense Ship Occlusion and Interaction Scenarios [10.748210940033484]
海上航行行動データセット(MID)は、複雑な海上環境における船舶検出の課題に対処するために設計されている。
MIDには5,673の画像と135,884の微調整されたターゲットインスタンスが含まれており、教師付き学習と半教師付き学習の両方をサポートしている。
MIDの画像は、43の水域を横断する現実世界のナビゲーションの高精細なビデオクリップから得られたもので、天候や照明条件も様々である。
論文 参考訳(メタデータ) (2024-12-08T09:34:23Z) - Edge-guided Representation Learning for Underwater Object Detection [15.832646455660278]
水中物体検出は海洋経済の発展、環境保護、惑星の持続可能な開発に不可欠である。
このタスクの主な課題は、低コントラスト、小さな物体、水生生物の模倣である。
本稿では,識別的表現学習とアグリゲーションの実現を目的としたエッジ誘導型表現学習ネットワークERL-Netを提案する。
論文 参考訳(メタデータ) (2023-06-01T08:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。