論文の概要: Automated Marine Biofouling Assessment: Benchmarking Computer Vision and Multimodal LLMs on the Level of Fouling Scale
- arxiv url: http://arxiv.org/abs/2601.20196v1
- Date: Wed, 28 Jan 2026 02:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.738889
- Title: Automated Marine Biofouling Assessment: Benchmarking Computer Vision and Multimodal LLMs on the Level of Fouling Scale
- Title(参考訳): 自動海洋バイオファウリング評価:コンピュータビジョンとマルチモーダルLCMをファウリングスケールでベンチマークする
- Authors: Brayden Hamilton, Tim Cashmore, Peter Driscoll, Trevor Gee, Henry Williams,
- Abstract要約: 船体へのバイオファーリングは、生態学的、経済的、バイオセキュリティの重大なリスクを引き起こす。
本研究では、カスタムコンピュータビジョンモデルと大規模マルチモーダル言語モデルの両方を用いて、バイオファウリングの重大度の自動分類について検討する。
- 参考スコア(独自算出の注目度): 1.4484301765138528
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Marine biofouling on vessel hulls poses major ecological, economic, and biosecurity risks. Traditional survey methods rely on diver inspections, which are hazardous and limited in scalability. This work investigates automated classification of biofouling severity on the Level of Fouling (LoF) scale using both custom computer vision models and large multimodal language models (LLMs). Convolutional neural networks, transformer-based segmentation, and zero-shot LLMs were evaluated on an expert-labelled dataset from the New Zealand Ministry for Primary Industries. Computer vision models showed high accuracy at extreme LoF categories but struggled with intermediate levels due to dataset imbalance and image framing. LLMs, guided by structured prompts and retrieval, achieved competitive performance without training and provided interpretable outputs. The results demonstrate complementary strengths across approaches and suggest that hybrid methods integrating segmentation coverage with LLM reasoning offer a promising pathway toward scalable and interpretable biofouling assessment.
- Abstract(参考訳): 船舶の海洋生物汚染は、生態学、経済学、バイオセキュリティの重大なリスクを引き起こす。
従来の調査手法は、危険でスケーラビリティに制限があるダイバーインスペクションに依存している。
本研究では、カスタムコンピュータビジョンモデルと大規模マルチモーダル言語モデル(LLM)の両方を用いて、バイオファウリングの重症度をLoFスケールで自動分類する。
ニュージーランド産業省のエキスパートラベル付きデータセットを用いて,畳み込みニューラルネットワーク,トランスフォーマーベースセグメンテーション,ゼロショットLDMを評価した。
コンピュータビジョンモデルは、極端なLoFカテゴリでは高い精度を示したが、データセットの不均衡と画像フレーミングのために中間レベルに苦しんだ。
LLMは構造化されたプロンプトと検索によってガイドされ、トレーニングなしで競争性能を達成し、解釈可能な出力を提供した。
その結果, セグメンテーションをLLM推論と組み合わせたハイブリッド手法が, スケーラブルで解釈可能なバイオファウリングアセスメントへの有望な道筋となることが示唆された。
関連論文リスト
- YH-MINER: Multimodal Intelligent System for Natural Ecological Reef Metric Extraction [23.4289262373633]
海洋生物多様性と生態過程を維持するために不可欠なサンゴ礁は、エスカレートする脅威に直面している。
本研究では,YH-MINERシステムを開発し,「対象検出-意味分割-優先入力」のためのインテリジェントなフレームワークを構築した。
本システムは,88%の属レベルの分類精度を達成し,同時にコア生態指標を抽出する。
論文 参考訳(メタデータ) (2025-05-28T11:36:18Z) - Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T16:14:49Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - The Misclassification Likelihood Matrix: Some Classes Are More Likely To Be Misclassified Than Others [1.654278807602897]
本研究では、分散シフト下でのニューラルネットワーク予測の信頼性を定量化するための新しいツールとして、MLM(Misclassification Likelihood Matrix)を紹介した。
この研究の意味は、画像の分類を超えて、自動運転車などの自動運転システムで進行中の応用に及んでいる。
論文 参考訳(メタデータ) (2024-07-10T16:43:14Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。