論文の概要: CoralVQA: A Large-Scale Visual Question Answering Dataset for Coral Reef Image Understanding
- arxiv url: http://arxiv.org/abs/2507.10449v1
- Date: Mon, 14 Jul 2025 16:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.471056
- Title: CoralVQA: A Large-Scale Visual Question Answering Dataset for Coral Reef Image Understanding
- Title(参考訳): CoralVQA:サンゴ礁画像理解のための大規模視覚質問回答データセット
- Authors: Hongyong Han, Wei Wang, Gaowei Zhang, Mingjie Li, Yi Wang,
- Abstract要約: CoralVQAはサンゴ礁分析のための最初の大規模データセットである。
3つの海から収集された67のサンゴ属の現実世界のサンゴ画像12,805枚を含む。
サンゴ礁画像の文脈で視覚言語推論を研究するためのベンチマークを提供する。
- 参考スコア(独自算出の注目度): 11.245091683779615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coral reefs are vital yet vulnerable ecosystems that require continuous monitoring to support conservation. While coral reef images provide essential information in coral monitoring, interpreting such images remains challenging due to the need for domain expertise. Visual Question Answering (VQA), powered by Large Vision-Language Models (LVLMs), has great potential in user-friendly interaction with coral reef images. However, applying VQA to coral imagery demands a dedicated dataset that addresses two key challenges: domain-specific annotations and multidimensional questions. In this work, we introduce CoralVQA, the first large-scale VQA dataset for coral reef analysis. It contains 12,805 real-world coral images from 67 coral genera collected from 3 oceans, along with 277,653 question-answer pairs that comprehensively assess ecological and health-related conditions. To construct this dataset, we develop a semi-automatic data construction pipeline in collaboration with marine biologists to ensure both scalability and professional-grade data quality. CoralVQA presents novel challenges and provides a comprehensive benchmark for studying vision-language reasoning in the context of coral reef images. By evaluating several state-of-the-art LVLMs, we reveal key limitations and opportunities. These insights form a foundation for future LVLM development, with a particular emphasis on supporting coral conservation efforts.
- Abstract(参考訳): サンゴ礁は絶滅危惧種であるが、保護のために継続的な監視を必要とする生態系である。
サンゴ礁の画像はサンゴのモニタリングに不可欠な情報を提供するが、そのような画像の解釈はドメインの専門知識を必要とするため難しいままである。
LVLM(Large Vision-Language Models)を利用したVQA(Visual Question Answering)は,サンゴ礁画像とのユーザフレンドリーなインタラクションにおいて大きな可能性を秘めている。
しかしながら、VQAをサンゴ画像に適用するには、ドメイン固有のアノテーションと多次元質問という2つの重要な課題に対処する専用のデータセットが必要である。
本研究ではサンゴ礁解析のための最初の大規模VQAデータセットであるCoralVQAを紹介する。
3つの海から採集された67のサンゴ属の12,805枚の現実世界のサンゴ画像と、277,653個の質問回答ペアが含まれており、生態学的および健康的な条件を包括的に評価している。
このデータセットを構築するために,海洋生物学者との共同で半自動データ構築パイプラインを構築し,スケーラビリティとプロフェッショナルグレードのデータ品質を両立させる。
CoralVQAは新たな課題を提示し、サンゴ礁画像の文脈で視覚言語推論を研究するための包括的なベンチマークを提供する。
いくつかの最先端のLVLMを評価することで、重要な限界と機会を明らかにする。
これらの知見は将来のLVLM開発の基礎を形成し、特にサンゴ保護活動の支援に重点を置いている。
関連論文リスト
- Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - The Coralscapes Dataset: Semantic Scene Understanding in Coral Reefs [4.096374910845255]
本研究はサンゴ礁において,2075のイメージ,39のベントニッククラス,174kのセグメンテーションマスクを含む汎用的なセグメンテーションデータセットを初めて公開する。
我々は、幅広いセマンティックセグメンテーションモデルをベンチマークし、Coralscapesから既存の小さなデータセットへの変換学習が一貫して最先端のパフォーマンスをもたらすことを発見した。
Coralscapesは、コンピュータビジョンに基づく効率よくスケーラブルで標準化されたサンゴ礁の調査方法の研究を触媒し、水中の生態学ロボットの開発を効率化する可能性を秘めている。
論文 参考訳(メタデータ) (2025-03-25T18:33:59Z) - Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - CoralSCOP-LAT: Labeling and Analyzing Tool for Coral Reef Images with Dense Mask [14.092526875441221]
本研究では,サンゴ礁の自動・半自動ラベル付け・分析ツールであるCoralSCOP-LATを提案する。
提案されたCoralSCOP-LATは、分析効率、精度、柔軟性から、既存のツールをはるかに上回っている。
我々のサンゴ礁分析ツールであるCoralSCOP-LATは、大規模なサンゴ礁モニタリングを繰り返すのに役立ちます。
論文 参考訳(メタデータ) (2024-10-27T13:26:44Z) - Combining Observational Data and Language for Species Range Estimation [63.65684199946094]
我々は,数百万の市民科学種の観察とウィキペディアのテキスト記述を組み合わせた新しいアプローチを提案する。
我々のフレームワークは、場所、種、テキスト記述を共通空間にマッピングし、テキスト記述からゼロショット範囲の推定を可能にする。
また,本手法は観測データと組み合わせることで,少ないデータでより正確な距離推定を行うことができる。
論文 参考訳(メタデータ) (2024-10-14T17:22:55Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - CoralVOS: Dataset and Benchmark for Coral Video Segmentation [12.434773034255455]
第1図で示すような大規模サンゴビデオセグメンテーションデータセット(textbfCoralVOS)を提案する。
我々はCoralVOSデータセットで、最新の6つの最先端ビデオオブジェクトセグメンテーション(VOS)アルゴリズムを含む実験を行いました。
その結果,セグメンテーション精度がさらに向上する可能性がまだ高いことがわかった。
論文 参考訳(メタデータ) (2023-10-03T10:45:37Z) - Pengembangan Model untuk Mendeteksi Kerusakan pada Terumbu Karang dengan
Klasifikasi Citra [3.254879465902239]
本研究はFlickr APIを用いてFlickrから収集した923枚の画像からなる特別なデータセットを利用する。
この研究で使用される方法は、機械学習モデル、特に畳み込みニューラルネットワーク(CNN)の使用を含む。
その結果,Stock-Scratch ResNetモデルは,精度と精度で事前学習モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-08T15:30:08Z) - Robot Goes Fishing: Rapid, High-Resolution Biological Hotspot Mapping in
Coral Reefs with Vision-Guided Autonomous Underwater Vehicles [6.658103076536836]
生物学的ホットスポット検出は、サンゴ礁管理者が監視と介入のタスクのために限られた資源を優先するのに役立つ。
ここでは、自律型水中車両(AUV)とカメラ、そして視覚検出器とフォトグラムと組み合わせて、これらのホットスポットをマッピングし、識別する方法について検討する。
我々の知る限り、我々はAUVを使って視覚的に観察され、微細な生体ホットスポットマップを収集する最初の試みの1つを提示する。
論文 参考訳(メタデータ) (2023-05-03T16:12:47Z) - Towards Generating Large Synthetic Phytoplankton Datasets for Efficient
Monitoring of Harmful Algal Blooms [77.25251419910205]
有害な藻類(HAB)は養殖農場で重大な魚死を引き起こす。
現在、有害藻や他の植物プランクトンを列挙する標準的な方法は、顕微鏡でそれらを手動で観察し数えることである。
合成画像の生成にはGAN(Generative Adversarial Networks)を用いる。
論文 参考訳(メタデータ) (2022-08-03T20:15:55Z) - Underwater Image Restoration via Contrastive Learning and a Real-world
Dataset [59.35766392100753]
本稿では,教師なし画像から画像への翻訳フレームワークに基づく水中画像復元手法を提案する。
提案手法は, 生画像と復元画像の相互情報を最大化するために, コントラスト学習と生成敵ネットワークを利用した。
論文 参考訳(メタデータ) (2021-06-20T16:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。