論文の概要: FishAI 2.0: Marine Fish Image Classification with Multi-modal Few-shot Learning
- arxiv url: http://arxiv.org/abs/2509.22930v1
- Date: Fri, 26 Sep 2025 20:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.941477
- Title: FishAI 2.0: Marine Fish Image Classification with Multi-modal Few-shot Learning
- Title(参考訳): FishAI 2.0:マルチモーダルFew-shot Learningによる海洋魚画像分類
- Authors: Chenghan Yang, Peng Zhou, Dong-Sheng Zhang, Yueyun Wang, Hong-Bin Shen, Xiaoyong Pan,
- Abstract要約: FishAI 2.0は、マルチモーダルな数ショットのディープラーニング技術と、データ拡張のための画像生成を統合している。
FishAI 2.0の精度は91.67パーセント、Top-5の精度は97.97パーセントである。
- 参考スコア(独自算出の注目度): 4.649981516403062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional marine biological image recognition faces challenges of incomplete datasets and unsatisfactory model accuracy, particularly for few-shot conditions of rare species where data scarcity significantly hampers the performance. To address these issues, this study proposes an intelligent marine fish recognition framework, FishAI 2.0, integrating multimodal few-shot deep learning techniques with image generation for data augmentation. First, a hierarchical marine fish benchmark dataset, which provides a comprehensive data foundation for subsequent model training, is utilized to train the FishAI 2.0 model. To address the data scarcity of rare classes, the large language model DeepSeek was employed to generate high-quality textual descriptions, which are input into Stable Diffusion 2 for image augmentation through a hierarchical diffusion strategy that extracts latent encoding to construct a multimodal feature space. The enhanced visual-textual datasets were then fed into a Contrastive Language-Image Pre-Training (CLIP) based model, enabling robust few-shot image recognition. Experimental results demonstrate that FishAI 2.0 achieves a Top-1 accuracy of 91.67 percent and Top-5 accuracy of 97.97 percent at the family level, outperforming baseline CLIP and ViT models with a substantial margin for the minority classes with fewer than 10 training samples. To better apply FishAI 2.0 to real-world scenarios, at the genus and species level, FishAI 2.0 respectively achieves a Top-1 accuracy of 87.58 percent and 85.42 percent, demonstrating practical utility. In summary, FishAI 2.0 improves the efficiency and accuracy of marine fish identification and provides a scalable technical solution for marine ecological monitoring and conservation, highlighting its scientific value and practical applicability.
- Abstract(参考訳): 従来の海洋生物画像認識は、不完全なデータセットと不満足なモデル精度の課題に直面している。
これらの課題に対処するために,本研究では,マルチモーダルな数発の深層学習技術とデータ拡張のための画像生成を融合した,インテリジェントな海洋魚認識フレームワークであるFishAI 2.0を提案する。
まず、その後のモデルトレーニングのための包括的なデータ基盤を提供する階層的な海洋魚のベンチマークデータセットを使用して、FishAI 2.0モデルをトレーニングする。
希少クラスのデータの不足に対処するため、大規模言語モデルDeepSeekを用いて高品質なテキスト記述を生成し、階層的拡散戦略により画像拡張のための安定拡散2に入力し、潜在エンコーディングを抽出してマルチモーダルな特徴空間を構築する。
拡張されたビジュアルテキストデータセットは、Contrastive Language-Image Pre-Training (CLIP)ベースのモデルに入力され、堅牢な数ショット画像認識が可能になった。
実験の結果、FishAI 2.0の精度は91.67パーセント、Top-5の精度は97.97パーセントで、ベースラインのCLIPやViTモデルよりも優れ、10のトレーニングサンプル未満のマイノリティクラスではかなりの差があることがわかった。
FishAI 2.0を現実世界のシナリオに適用するために、属と種レベルでそれぞれ87.58パーセントと85.42パーセントのTop-1の精度を達成し、実用性を実証している。
まとめると、FishAI 2.0は海洋魚の識別の効率と精度を改善し、海洋生態モニタリングと保全のためのスケーラブルな技術ソリューションを提供し、その科学的価値と実用性を強調している。
関連論文リスト
- Real-Time Fish Detection in Indonesian Marine Ecosystems Using Lightweight YOLOv10-nano Architecture [0.0]
本研究では,インドネシア海域におけるリアルタイム海洋魚検出のための最先端の深層学習モデルであるYOLOv10-nanoの実装について検討した。
YOLOv10のアーキテクチャは、CSPNetバックボーン、機能融合のためのPAN、ピラミッド空間注意ブロックなどの改善を特徴とし、効率的で正確なオブジェクト検出を可能にしている。
その結果, YOLOv10-nano は 0.966 の mAP50 と 0.606 の mAP50:95 で高い検出精度を達成し, 計算要求の低さを維持した。
論文 参考訳(メタデータ) (2025-09-22T07:02:48Z) - IMASHRIMP: Automatic White Shrimp (Penaeus vannamei) Biometrical Analysis from Laboratory Images Using Computer Vision and Deep Learning [0.0]
IMASHRIMPはシロエビ(Penaeus vannamei)の自動形態解析に適応したシステムである
既存のディープラーニングとコンピュータビジョン技術は、RGBD画像からのエビ形態解析の具体的な課題に対処するために修正された。
IMASHRIMPは、修正されたResNet-50アーキテクチャに基づく2つの識別モジュールを組み込んで、画像の視点で分類し、ロストラムの完全性を決定する。
論文 参考訳(メタデータ) (2025-07-03T10:32:49Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - Contrastive Visual Data Augmentation [119.51630737874855]
大規模なマルチモーダルモデル(LMM)は、訓練済みの知識に依存し、微妙な視覚的詳細を捉える能力に制限があるため、しばしば新しい概念を認識するのに苦労する。
本稿では,LMMの視覚的特徴と言語との整合性を改善するために,Contrastive visual Data Augmentation(CoDA)戦略を提案する。
CoDAは、認識されていない既知の概念に対して、ターゲット概念の重要な対照的なテキスト的特徴と視覚的特徴を抽出し、ターゲットとなる合成データを生成するために、マルチモーダル生成モデルを使用する。
論文 参考訳(メタデータ) (2025-02-24T23:05:31Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Scalable Pre-training of Large Autoregressive Image Models [65.824197847617]
本稿では,自己回帰目標を事前学習した視覚モデル集であるAIMを紹介する。
そこで本研究では,(1)モデルキャパシティとデータ量の両方で視覚的特徴がスケールし,(2)目標関数の値は下流タスクにおけるモデルの性能と相関することを示す。
論文 参考訳(メタデータ) (2024-01-16T18:03:37Z) - MuLA-GAN: Multi-Level Attention GAN for Enhanced Underwater Visibility [1.9272863690919875]
本稿では,総合的な水中画像強調のためのGAN(Geneversarative Adrial Networks)とマルチレベルアテンション機構の相乗効果を利用した新しいアプローチであるMuLA-GANを紹介する。
本モデルは,水中画像の複雑な細部を捉え保存することに優れており,様々な用途に欠かせない。
この研究は、水中画像の強調における重要な研究ギャップに対処するだけでなく、GANの強化におけるマルチレベル注意の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-12-25T07:33:47Z) - A deep neural network for multi-species fish detection using multiple
acoustic cameras [0.0]
本稿では,CNN (Convolutional Neural Network) と従来のCV (Computer Vision) 技術の両方を活用する新しい手法を提案する。
パイプラインは、音像を前処理して2つの特徴を抽出し、信号をローカライズし、検出性能を向上させる。
YOLOv3ベースのモデルは、2つの一般的な音響カメラで記録された複数の種の魚のデータを用いて訓練された。
論文 参考訳(メタデータ) (2021-09-22T11:47:24Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Temperate Fish Detection and Classification: a Deep Learning based
Approach [6.282069822653608]
本研究では,2段階の深層学習手法を提案する。
最初のステップは、種や性別によらず、画像中の各魚を検出することです。
第2のステップでは、画像中の各魚を事前フィルタリングせずに分類するために、Squeeze-and-Excitation (SE)アーキテクチャを備えた畳み込みニューラルネットワーク(CNN)を採用する。
論文 参考訳(メタデータ) (2020-05-14T12:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。