論文の概要: FishNet++: Analyzing the capabilities of Multimodal Large Language Models in marine biology
- arxiv url: http://arxiv.org/abs/2509.25564v1
- Date: Mon, 29 Sep 2025 22:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.954391
- Title: FishNet++: Analyzing the capabilities of Multimodal Large Language Models in marine biology
- Title(参考訳): FishNet++:海洋生物学におけるマルチモーダル大言語モデルの能力分析
- Authors: Faizan Farooq Khan, Yousef Radwan, Eslam Abdelrahman, Abdulwahab Felemban, Aymen Mir, Nico K. Michiels, Andrew J. Temple, Michael L. Berumen, Mohamed Elhoseiny,
- Abstract要約: MLLM(Multimodal large language model)は、優れたクロスドメイン機能を示しているが、海洋生物学のような専門的な科学分野において、その能力は未解明のままである。
本研究では,最新のMLLMを体系的に評価し,魚種を微粒化認識する能力に重大な限界があることを明らかにする。
大規模なマルチモーダルベンチマークである FishNet++ を紹介する。
FishNet++は、マルチモーダル学習のための35,133のテキスト記述、形態学研究のための706,426のキーポイントアノテーション、検出のための119,399のバウンディングボックスによって、既存のリソースを大幅に拡張している。
- 参考スコア(独自算出の注目度): 28.683426892594458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated impressive cross-domain capabilities, yet their proficiency in specialized scientific fields like marine biology remains underexplored. In this work, we systematically evaluate state-of-the-art MLLMs and reveal significant limitations in their ability to perform fine-grained recognition of fish species, with the best open-source models achieving less than 10\% accuracy. This task is critical for monitoring marine ecosystems under anthropogenic pressure. To address this gap and investigate whether these failures stem from a lack of domain knowledge, we introduce FishNet++, a large-scale, multimodal benchmark. FishNet++ significantly extends existing resources with 35,133 textual descriptions for multimodal learning, 706,426 key-point annotations for morphological studies, and 119,399 bounding boxes for detection. By providing this comprehensive suite of annotations, our work facilitates the development and evaluation of specialized vision-language models capable of advancing aquatic science.
- Abstract(参考訳): MLLM(Multimodal large language model)は、優れたクロスドメイン機能を示しているが、海洋生物学のような専門的な科学分野において、その能力は未解明のままである。
本研究では,最新のMLLMを体系的に評価し,魚種を微粒化認識する能力において,優れたオープンソースモデルが10倍未満の精度で達成できることを明らかにする。
この課題は人為的な圧力の下で海洋生態系を監視するために重要である。
このギャップに対処し、これらの障害がドメイン知識の欠如に起因するかどうかを調べるために、大規模なマルチモーダルベンチマークであるFishNet++を紹介します。
FishNet++は、マルチモーダル学習のための35,133のテキスト記述、形態学研究のための706,426のキーポイントアノテーション、検出のための119,399のバウンディングボックスによって、既存のリソースを大幅に拡張している。
このアノテーションを包括的に提供することにより,水文学を推進できる専門的な視覚言語モデルの開発と評価が容易になる。
関連論文リスト
- Jellyfish Species Identification: A CNN Based Artificial Neural Network Approach [0.0]
クラゲは海洋生態系の維持に重要な役割を担っているが、生物多様性と保全に重大な課題を生んでいる。
本研究では,水中画像データセットを用いたクラゲ種検出・分類のための深層学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-15T09:10:36Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.74944165932666]
本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model [49.06911227670408]
本研究では,SciML基礎モデルにより,現実の3次元流体力学を推定する際のデータ効率を大幅に向上できることを示す。
基礎モデルから抽出した拡張ビューと流体特徴を利用した新しい協調学習手法をニューラルネットワークに装備する。
論文 参考訳(メタデータ) (2024-12-18T14:39:43Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - A quantitative analysis of knowledge-learning preferences in large language models in molecular science [24.80165173525286]
大規模言語モデル(LLM)は、自然言語処理(NLP)の観点から科学的問題に取り組むための新しい研究パラダイムを導入している。
LLMは分子の理解と生成を著しく強化し、しばしば複雑な分子パターンをデコードし合成する能力で既存の手法を超越している。
我々は、ChEBI-20-MMというマルチモーダルベンチマークを提案し、モデルとデータモダリティとの互換性と知識獲得を評価する1263の実験を行った。
論文 参考訳(メタデータ) (2024-02-06T16:12:36Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Advancing bioinformatics with large language models: components, applications and perspectives [12.728981464533918]
LLM(Large Language Model)は、ディープラーニングに基づく人工知能モデルのクラスである。
バイオインフォマティクスにおける大規模言語モデル(LLM)の本質的構成要素について概観する。
主な側面としては、さまざまなデータ型に対するトークン化メソッド、トランスフォーマーモデルのアーキテクチャ、コアアテンションメカニズムなどがある。
論文 参考訳(メタデータ) (2024-01-08T17:26:59Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。