論文の概要: ORCA: Object Recognition and Comprehension for Archiving Marine Species
- arxiv url: http://arxiv.org/abs/2512.21150v1
- Date: Wed, 24 Dec 2025 12:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.779798
- Title: ORCA: Object Recognition and Comprehension for Archiving Marine Species
- Title(参考訳): ORCA:海洋生物の認識と理解
- Authors: Yuk-Kwan Wong, Haixin Liang, Zeyu Ma, Yiwei Chen, Ziqiang Zheng, Rinaldi Gotama, Pascal Sebastian, Lauren D. Sparks, Sai-Kit Yeung,
- Abstract要約: ORCAは478種の14,647枚の画像からなる海洋研究のためのマルチモーダルベンチマークである。
このデータセットは、様々な海洋種にまたがる形態学指向の属性をキャプチャする、きめ細かい視覚的およびテキスト的アノテーションを提供する。
結果は、種多様性、形態学的重複、専門領域要求など、重要な課題を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 19.88077587860992
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Marine visual understanding is essential for monitoring and protecting marine ecosystems, enabling automatic and scalable biological surveys. However, progress is hindered by limited training data and the lack of a systematic task formulation that aligns domain-specific marine challenges with well-defined computer vision tasks, thereby limiting effective model application. To address this gap, we present ORCA, a multi-modal benchmark for marine research comprising 14,647 images from 478 species, with 42,217 bounding box annotations and 22,321 expert-verified instance captions. The dataset provides fine-grained visual and textual annotations that capture morphology-oriented attributes across diverse marine species. To catalyze methodological advances, we evaluate 18 state-of-the-art models on three tasks: object detection (closed-set and open-vocabulary), instance captioning, and visual grounding. Results highlight key challenges, including species diversity, morphological overlap, and specialized domain demands, underscoring the difficulty of marine understanding. ORCA thus establishes a comprehensive benchmark to advance research in marine domain. Project Page: http://orca.hkustvgd.com/.
- Abstract(参考訳): 海洋の視覚的理解は海洋生態系の監視と保護に不可欠であり、自動でスケーラブルな生物学的調査を可能にする。
しかし、進歩は限られた訓練データと、ドメイン固有の海洋問題と明確に定義されたコンピュータビジョンタスクを整合させる体系的なタスク定式化の欠如によって妨げられ、それによって効果的なモデル適用が制限される。
このギャップに対処するため,478種14,647枚の画像と42,217個のバウンディングボックスアノテーション,22,321個の専門家が検証したインスタンスキャプションからなる海洋調査用マルチモーダルベンチマークORCAを提案する。
このデータセットは、様々な海洋種にまたがる形態学指向の属性をキャプチャする、きめ細かい視覚的およびテキスト的アノテーションを提供する。
方法論的進歩を触媒するため,物体検出(クローズドセットとオープンボキャブラリ),インスタンスキャプション,視覚的接地という3つのタスクにおける18の最先端モデルの評価を行った。
結果は、種多様性、形態学的重複、専門領域要求などの重要な課題を浮き彫りにし、海洋理解の難しさを浮き彫りにしている。
ORCAは海洋領域の研究を進めるための総合的なベンチマークを確立する。
プロジェクトページ: http://orca.hkustvgd.com/
関連論文リスト
- UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding [54.16709436340606]
視覚言語モデル(VLM)は自然界の理解において顕著な成功を収めた。
水中画像は、厳しい光の減衰、色歪み、懸濁粒子散乱などの固有の課題を呈している。
水中視覚言語理解のためのベンチマークであるUWBenchを紹介する。
論文 参考訳(メタデータ) (2025-10-21T03:32:15Z) - MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment [56.88334234553316]
我々は,水中オープンボキャブラリ(OV)セグメンテーションのための大規模なベンチマークであるtextbfMARIS (underlineMarine Open-Vocabulary underlineInstance underlineSegmentation)を紹介した。
当社のフレームワークは、既存のOVベースラインであるIn-DomainとCross-Domainの両方を一貫して上回ります。
論文 参考訳(メタデータ) (2025-10-17T07:50:58Z) - Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection [54.1960918379255]
Neptune-Xは、海洋オブジェクト検出のためのデータ中心の生成-選択フレームワークである。
X-to-Maritime(X-to-Maritime)は、多様で現実的な海洋シーンを合成する多モード条件生成モデルである。
提案手法は,海上シーン合成における新しいベンチマークを設定し,検出精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-25T04:59:02Z) - Marine Saliency Segmenter: Object-Focused Conditional Diffusion with Region-Level Semantic Knowledge Distillation [44.50637633194709]
海洋衛生(MSS)は、様々な視覚に基づく海洋探査において重要な役割を担っている。
拡散モデルに基づく新しい海洋塩分セグメンタDiffMSSを提案する。
我々は、過度に信頼された誤認識を抑制するために、専用決定論的コンセンサスサンプリングを開発する。
論文 参考訳(メタデータ) (2025-04-03T08:31:36Z) - Reducing Label Dependency for Underwater Scene Understanding: A Survey of Datasets, Techniques and Applications [3.4210271593052606]
調査は、人間の専門家の入力への依存を減らすアプローチに焦点を当てている。
弱く自己監督的な深層学習の背景を提供し、これらの要素を水中モニタリング、コンピュータビジョン、深層学習の交差点を中心とする分類学に統合する。
論文 参考訳(メタデータ) (2024-11-18T05:16:09Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - MarineDet: Towards Open-Marine Object Detection [13.58409623192008]
オープンマリン物体検出(OMOD: Open-marine object detection)は、多種多様で目に見えない海洋物体を検知し、分類と局所化を同時に行うために必要である。
我々は、事前訓練を通じて共同視覚テキスト意味空間を定式化し、その後、海洋固有の訓練を行い、航空から海への知識伝達を実現する。
実験により、既存のジェネラリストや専門オブジェクト検出アルゴリズムよりも、MarineDetの方が優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-03T10:13:42Z) - Weakly supervised marine animal detection from remote sensing images
using vector-quantized variational autoencoder [4.812718493682454]
本稿では, 海洋環境における航空画像からの弱教師付き動物検出のための再構成に基づくアプローチについて検討する。
異常検出フレームワークは、入力空間上で直接メトリクスを計算し、解釈可能性と異常なローカライゼーションを高める。
我々のフレームワークは、異常の解釈性と局所化を改善し、海洋生態系のモニタリングに有用な洞察を提供する。
論文 参考訳(メタデータ) (2023-07-13T12:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。