Fugu-MT 論文翻訳(概要): AQUA20: A Benchmark Dataset for Underwater Species Classification under Challenging Conditions

論文の概要: AQUA20: A Benchmark Dataset for Underwater Species Classification under Challenging Conditions

arxiv url: http://arxiv.org/abs/2506.17455v2
Date: Mon, 30 Jun 2025 17:27:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 15:08:39.846128
Title: AQUA20: A Benchmark Dataset for Underwater Species Classification under Challenging Conditions
Title（参考訳）: Aqua20: 混入条件下での水中種分類のためのベンチマークデータセット
Authors: Taufikur Rahman Fuad, Sabbir Ahmed, Shahriar Ivan,
Abstract要約: 本稿では,20種の海面画像8,171点からなる総合的なベンチマークデータセットであるAqua20を紹介する。 13種類の最先端ディープラーニングモデルを評価し, 課題条件下での海洋生物分類における性能評価を行った。結果、ConvNeXtは98.82%、Top-1は90.69%、F1スコアは88.92%、パラメータサイズは適度に大きい。
参考スコア（独自算出の注目度）: 1.2289361708127877
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robust visual recognition in underwater environments remains a significant challenge due to complex distortions such as turbidity, low illumination, and occlusion, which severely degrade the performance of standard vision systems. This paper introduces AQUA20, a comprehensive benchmark dataset comprising 8,171 underwater images across 20 marine species reflecting real-world environmental challenges such as illumination, turbidity, occlusions, etc., providing a valuable resource for underwater visual understanding. Thirteen state-of-the-art deep learning models, including lightweight CNNs (SqueezeNet, MobileNetV2) and transformer-based architectures (ViT, ConvNeXt), were evaluated to benchmark their performance in classifying marine species under challenging conditions. Our experimental results show ConvNeXt achieving the best performance, with a Top-3 accuracy of 98.82% and a Top-1 accuracy of 90.69%, as well as the highest overall F1-score of 88.92% with moderately large parameter size. The results obtained from our other benchmark models also demonstrate trade-offs between complexity and performance. We also provide an extensive explainability analysis using GRAD-CAM and LIME for interpreting the strengths and pitfalls of the models. Our results reveal substantial room for improvement in underwater species recognition and demonstrate the value of AQUA20 as a foundation for future research in this domain. The dataset is publicly available at: https://huggingface.co/datasets/taufiktrf/AQUA20.
Abstract（参考訳）: 水中環境におけるロバストな視覚認識は、標準的な視覚システムの性能を著しく低下させる、濁度、低照度、閉塞といった複雑な歪みのために、依然として重要な課題である。本稿では,20種の海面画像8,171点からなる総合的なベンチマークデータセットであるAqua20を紹介し,照明,濁度,閉塞性などの実環境課題を反映し,水中の視覚的理解に有用な資源を提供する。軽量CNN(SqueezeNet, MobileNetV2)やトランスフォーマーベースのアーキテクチャ(ViT, ConvNeXt)を含む13の最先端ディープラーニングモデルを評価し, 課題のある環境下での海洋生物の分類における性能評価を行った。実験の結果,ConvNeXtは98.82%,Top-1は90.69%,F1スコアは88.92%,パラメータサイズは適度に大きい。他のベンチマークモデルから得られた結果は、複雑さとパフォーマンスのトレードオフも示しています。また,GRAD-CAMとLIMEを用いて,モデルの強度と落とし穴の解釈を行う。以上の結果から, 水中生物認識の精度向上と, 今後の研究基盤としてのAQUA20の意義が明らかとなった。データセットは、https://huggingface.co/datasets/taufiktrf/AQUA20で公開されている。

関連論文リスト

A Generative Data Framework with Authentic Supervision for Underwater Image Restoration and Enhancement [51.382274157144714]
我々は、未ペア画像から画像への変換に基づく生成データフレームワークを開発する。このフレームワークは、正確な地上構造ラベルを持つ合成データセットを構成する。実験により、我々の合成データに基づいてトレーニングされたモデルが、既存のベンチマークでトレーニングされたモデルに匹敵する、あるいは優れた色復元と一般化性能が得られることが示された。
論文参考訳（メタデータ） (2025-11-18T14:20:17Z)
Exploring the Underwater World Segmentation without Extra Training [55.291219073365546]
我々は,最初の大規模かつ微細な水中セグメンテーションデータセットである textbfAquaOV255 を紹介する。トレーニング不要なOVセグメンテーションフレームワークである textbfEarth2Ocean も紹介する。
論文参考訳（メタデータ） (2025-11-11T07:22:56Z)
UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding [54.16709436340606]
視覚言語モデル(VLM)は自然界の理解において顕著な成功を収めた。水中画像は、厳しい光の減衰、色歪み、懸濁粒子散乱などの固有の課題を呈している。水中視覚言語理解のためのベンチマークであるUWBenchを紹介する。
論文参考訳（メタデータ） (2025-10-21T03:32:15Z)
FishDet-M: A Unified Large-Scale Benchmark for Robust Fish Detection and CLIP-Guided Model Selection in Diverse Aquatic Visual Domains [1.3791394805787949]
FishDet-Mは、様々な水生環境にまたがる13の公開データセットを含む、魚検出のための最大の統一されたベンチマークである。すべてのデータは、境界ボックスとセグメンテーションマスクの両方を持つCOCOスタイルのアノテーションを使用して調和する。 FishDet-Mは、複雑な水シーンにおけるオブジェクト検出を評価するための標準化され再現可能なプラットフォームを確立する。
論文参考訳（メタデータ） (2025-07-23T18:32:01Z)
Underwater Monocular Metric Depth Estimation: Real-World Benchmarks and Synthetic Fine-Tuning with Vision Foundation Models [0.0]
実世界の水中データセットを用いたゼロショットおよび微調整単分子メートル法深度推定モデルのベンチマークを示す。その結果,地上データ(実データや合成データ)に基づいて訓練した大規模モデルでは,水中での作業は不十分であることがわかった。本研究では,水中における単分子距離深度推定の詳細な評価と可視化を行う。
論文参考訳（メタデータ） (2025-07-02T21:06:39Z)
USIS16K: High-Quality Dataset for Underwater Salient Instance Segmentation [11.590111778515775]
16,151個の高分解能水中画像からなる大規模データセットであるUSIS16Kを紹介する。各画像には高品質のインスタンスレベルのサルエントオブジェクトマスクが付加されている。 USIS16Kを用いた水中物体検出とUSISタスクのベンチマーク評価を行った。
論文参考訳（メタデータ） (2025-06-24T09:58:01Z)
UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset [62.00529957144851]
大規模な水中インスタンスセグメンテーションデータセットであるUIIS10Kを提案する。次に,水中インスタンスの自動・高精度セグメンテーションのための効率的なモデルであるUWSAMを紹介する。複数の水中インスタンスデータセット上での最先端手法よりも優れた性能向上を実現し,本モデルの有効性を示す。
論文参考訳（メタデータ） (2025-05-21T14:36:01Z)
Learning Underwater Active Perception in Simulation [51.205673783866146]
タービディティは、検査された構造物の正確な視覚的記録を阻止する可能性があるため、ミッション全体を危険に晒す可能性がある。従来の研究は、濁度や後方散乱に適応する手法を導入してきた。本研究では, 広範囲の水環境下での高品質な画像取得を実現するための, 単純かつ効率的なアプローチを提案する。
論文参考訳（メタデータ） (2025-04-23T06:48:38Z)
PIGUIQA: A Physical Imaging Guided Perceptual Framework for Underwater Image Quality Assessment [59.9103803198087]
水中画像品質評価(UIQA)のための物理画像ガイド型知覚フレームワークを提案する。水中放射移動理論を応用して、物理に基づく画像推定を統合して、これらの歪みの定量的な測定値を確立する。提案モデルは,画像品質のスコアを正確に予測し,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-20T03:31:45Z)
FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation [65.01601309903971]
無人水中車両(UUV)の6次元ポーズ推定のための周波数認識フロー支援フレームワークであるFAFAを紹介する。我々のフレームワークは、3DモデルとRGB画像のみに依存しており、実際のポーズアノテーションや奥行きのような非モダリティデータの必要性を軽減しています。本研究では,一般的な水中オブジェクトポーズベンチマークにおけるFAFAの有効性を評価し,最先端手法と比較して顕著な性能向上を示した。
論文参考訳（メタデータ） (2024-09-25T03:54:01Z)
On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery [0.0]
サイドスキャンソナー (SSS) 画像は海底の人工物体の分類においてユニークな課題を呈している。本稿では、SSS画像のバイナリ分類タスクによく使用されるCNNアーキテクチャとともに、VTモデルの性能を厳格に比較する。 ViTベースのモデルは、f1スコア、精度、リコール、精度の指標で優れた分類性能を示す。
論文参考訳（メタデータ） (2024-09-18T14:36:50Z)
Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。第1次大規模水中塩分分節データセット(USIS10K)を構築した。本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-06-10T06:17:33Z)
MuLA-GAN: Multi-Level Attention GAN for Enhanced Underwater Visibility [1.9272863690919875]
本稿では,総合的な水中画像強調のためのGAN(Geneversarative Adrial Networks)とマルチレベルアテンション機構の相乗効果を利用した新しいアプローチであるMuLA-GANを紹介する。本モデルは,水中画像の複雑な細部を捉え保存することに優れており,様々な用途に欠かせない。この研究は、水中画像の強調における重要な研究ギャップに対処するだけでなく、GANの強化におけるマルチレベル注意の重要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-12-25T07:33:47Z)
Improving Underwater Visual Tracking With a Large Scale Dataset and Image Enhancement [70.2429155741593]
本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカ拡張手法を提案する。水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。本研究では,追尾品質の向上に特化して設計された水中画像強調アルゴリズムを提案する。この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。
論文参考訳（メタデータ） (2023-08-30T07:41:26Z)
The Second Monocular Depth Estimation Challenge [93.1678025923996]
MDEC (Monocular Depth Estimation Challenge) の第2版は、いかなる種類の監視方法にも開放された。この課題はSynS-Patchesデータセットをベースとしており、高品質な高密度地下構造を持つ多様な環境を特徴としている。上位の監督官は相対的なFスコアを27.62%改善し、上位の監督官は16.61%改善した。
論文参考訳（メタデータ） (2023-04-14T11:10:07Z)
UID2021: An Underwater Image Dataset for Evaluation of No-reference Quality Assessment Metrics [11.570496045891465]
水中画像品質評価(UIQA)は水中の視覚知覚と画像/映像処理において重要である。この問題に対処するため、非参照UIQAメトリクスを評価するために、UID 2021と呼ばれる大規模な水中画像データセットを構築した。構築されたデータセットは、様々なソースから収集された60個の多重分解水中画像を含み、6つの一般的な水中シーンをカバーしている。
論文参考訳（メタデータ） (2022-04-19T11:28:08Z)
A Realistic Fish-Habitat Dataset to Evaluate Algorithms for Underwater Visual Analysis [2.6476746128312194]
我々は、DeepFishを大規模データセットでベンチマークスイートとして提示し、いくつかのコンピュータビジョンタスクのためのメソッドをトレーニングし、テストする。このデータセットは、熱帯オーストラリアの海洋環境にある20の温帯生物から採取された約4万枚の画像で構成されている。実験では,データセットの特徴を詳細に分析し,いくつかの最先端手法の性能評価を行った。
論文参考訳（メタデータ） (2020-08-28T12:20:59Z)
Simultaneous Enhancement and Super-Resolution of Underwater Imagery for Improved Visual Perception [17.403133838762447]
水中ロボットの視力向上と超高分解能化(SESR)を同時に行う。本稿では,2倍,3倍,あるいは4倍の空間分解能で知覚的画質の復元を学習できる残差ネットワークベース生成モデルであるDeep SESRを提案する。
論文参考訳（メタデータ） (2020-02-04T07:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。