論文の概要: Surely Large Multimodal Models (Don't) Excel in Visual Species Recognition?
- arxiv url: http://arxiv.org/abs/2512.15748v1
- Date: Wed, 10 Dec 2025 21:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.655548
- Title: Surely Large Multimodal Models (Don't) Excel in Visual Species Recognition?
- Title(参考訳): 視覚的種別認識におけるExcelの大規模マルチモーダルモデル(そうでない)
- Authors: Tian Liu, Anwesha Basu, James Caverlee, Shu Kong,
- Abstract要約: 視覚的種別認識(VSR)のための機械学習モデルは、通常大量の注釈付き画像を必要とする。
大規模マルチモーダルモデル(LMM)は、一般的な認識タスクにおいて顕著な性能を示した。
我々は,専門家モデルの上位予測をLMMに再ランクさせる,ポストホック補正(POC)と呼ばれる単純な手法を導出する。
- 参考スコア(独自算出の注目度): 27.35951269350466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Species Recognition (VSR) is pivotal to biodiversity assessment and conservation, evolution research, and ecology and ecosystem management. Training a machine-learned model for VSR typically requires vast amounts of annotated images. Yet, species-level annotation demands domain expertise, making it realistic for domain experts to annotate only a few examples. These limited labeled data motivate training an ''expert'' model via few-shot learning (FSL). Meanwhile, advanced Large Multimodal Models (LMMs) have demonstrated prominent performance on general recognition tasks. It is straightforward to ask whether LMMs excel in the highly specialized VSR task and whether they outshine FSL expert models. Somewhat surprisingly, we find that LMMs struggle in this task, despite using various established prompting techniques. LMMs even significantly underperform FSL expert models, which are as simple as finetuning a pretrained visual encoder on the few-shot images. However, our in-depth analysis reveals that LMMs can effectively post-hoc correct the expert models' incorrect predictions. Briefly, given a test image, when prompted with the top predictions from an FSL expert model, LMMs can recover the ground-truth label. Building on this insight, we derive a simple method called Post-hoc Correction (POC), which prompts an LMM to re-rank the expert model's top predictions using enriched prompts that include softmax confidence scores and few-shot visual examples. Across five challenging VSR benchmarks, POC outperforms prior art of FSL by +6.4% in accuracy without extra training, validation, or manual intervention. Importantly, POC generalizes to different pretrained backbones and LMMs, serving as a plug-and-play module to significantly enhance existing FSL methods.
- Abstract(参考訳): 視覚的種認識(VSR)は、生物多様性の評価と保全、進化研究、生態学と生態系管理に重要である。
VSRのための機械学習モデルのトレーニングは通常、大量の注釈付き画像を必要とする。
しかし、種レベルのアノテーションはドメインの専門知識を必要とするため、ドメインの専門家がいくつかの例だけをアノテートすることは現実的である。
これらのラベル付きデータは、数ショット学習(FSL)を通じて''専門家'モデルをトレーニングする動機となっている。
一方、LMM(Large Multimodal Models)は、一般的な認識タスクにおいて顕著な性能を示した。
高度に専門化されたVSRタスクにおいてLMMが優れているのか、FSLエキスパートモデルよりも優れているのかを問うのは簡単である。
意外なことに、様々な確立されたプロンプト技術を使用しても、LMMはこのタスクに苦労している。
LMMはFSLエキスパートモデルよりもはるかに性能が劣るが、これは数枚の画像で事前訓練されたビジュアルエンコーダを微調整するのと同じくらい単純である。
しかし,本研究では,LMMが専門家モデルの誤予測を効果的に修正できることを明らかにした。
簡単に言えば、テスト画像が与えられた場合、FSLの専門家モデルから最上位の予測を導き出すと、LMMはグラウント・トゥルース・ラベルを復元できる。
この知見に基づいて,LMMがソフトマックスの信頼性スコアや数ショットの視覚的例を含むリッチなプロンプトを用いて,エキスパートモデルの上位予測を再ランクする,ポストホック補正(POC)と呼ばれる単純な手法を導出する。
5つの挑戦的なVSRベンチマークにおいて、POCは追加のトレーニング、検証、手動による介入なしに、FSLの先行技術よりも+6.4%の精度で性能を向上した。
重要なことに、POCは様々な事前訓練されたバックボーンとLMMに一般化し、既存のFSLメソッドを大幅に強化するプラグイン・アンド・プレイモジュールとして機能する。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
単語と画素の対応が視覚的接地によって誘導されるという事実は、十分に訓練されたLMMの注意機構に本質的に存在するという事実に基づいている。
表現セグメンテーションと単視的物語グラウンドベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - FSL-Rectifier: Rectify Outliers in Few-Shot Learning via Test-Time Augmentation [7.477118370563593]
FSL(Few-shot Learning)は通常、トレーニング中に目に見えないクラスに属する画像(クエリ)を識別するモデルを必要とする。
生成画像コンバインダを用いて、原サンプルと適切な列車クラスサンプルを組み合わせることで、追加のテストクラスサンプルを生成する。
我々は、平均化によってより典型的な表現をもたらす拡張子を介して平均化された特徴を得る。
論文 参考訳(メタデータ) (2024-02-28T12:37:30Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。