論文の概要: Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2505.01064v1
- Date: Fri, 02 May 2025 07:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.943015
- Title: Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs
- Title(参考訳): マルチモーダルLLM時代における語彙自由ファイングラインド視覚認識の効率化
- Authors: Hari Chandana Kuchibhotla, Sai Srinivas Kancheti, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian,
- Abstract要約: MLLMによって生成されたラベルを用いて、下流のCLIPモデルを微調整する新しいアプローチである textbfNearest-Neighbor Label textbfRefinement (NeaR) を導入する。
提案手法は,ラベル生成のためのMLLMを利用して,ラベルなしの小さなトレーニングセットから弱教師付きデータセットを構築する。
- 参考スコア(独自算出の注目度): 28.041879000565874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained Visual Recognition (FGVR) involves distinguishing between visually similar categories, which is inherently challenging due to subtle inter-class differences and the need for large, expert-annotated datasets. In domains like medical imaging, such curated datasets are unavailable due to issues like privacy concerns and high annotation costs. In such scenarios lacking labeled data, an FGVR model cannot rely on a predefined set of training labels, and hence has an unconstrained output space for predictions. We refer to this task as Vocabulary-Free FGVR (VF-FGVR), where a model must predict labels from an unconstrained output space without prior label information. While recent Multimodal Large Language Models (MLLMs) show potential for VF-FGVR, querying these models for each test input is impractical because of high costs and prohibitive inference times. To address these limitations, we introduce \textbf{Nea}rest-Neighbor Label \textbf{R}efinement (NeaR), a novel approach that fine-tunes a downstream CLIP model using labels generated by an MLLM. Our approach constructs a weakly supervised dataset from a small, unlabeled training set, leveraging MLLMs for label generation. NeaR is designed to handle the noise, stochasticity, and open-endedness inherent in labels generated by MLLMs, and establishes a new benchmark for efficient VF-FGVR.
- Abstract(参考訳): 微粒な視覚認識(FGVR)は、クラス間の微妙な違いと、大規模で専門家による注釈付きデータセットの必要性により本質的に難しい、視覚的に類似したカテゴリを区別する。
医療画像のような領域では、プライバシの懸念やアノテーションのコストの高さといった問題のために、このようなキュレートされたデータセットは利用できない。
ラベル付きデータを持たないこのようなシナリオでは、FGVRモデルは事前定義されたトレーニングラベルのセットに頼ることができないため、予測のために制約のない出力空間を持つ。
本稿では,この課題をVocabulary-Free FGVR (VF-FGVR) と呼ぶ。
近年のMultimodal Large Language Models (MLLM) はVF-FGVRの可能性を示しているが、これらのモデルを各テスト入力に対してクエリすることは、高いコストと禁止的な推論時間のために現実的ではない。
これらの制限に対処するために,MLLM で生成されたラベルを用いて下流の CLIP モデルを微調整する新しいアプローチである \textbf{Nea}rest-Neighbor Label \textbf{R}efinement (NeaR) を導入する。
提案手法は,ラベル生成のためのMLLMを利用して,ラベルなしの小さなトレーニングセットから弱教師付きデータセットを構築する。
NeaRはMLLMが生成するラベルに固有のノイズ、確率性、開放性を扱うように設計されており、効率的なVF-FGVRのための新しいベンチマークを確立する。
関連論文リスト
- Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models [31.34575955517015]
Finedeficsは、トレーニングフェーズにオブジェクトの情報属性記述を組み込むことで、モデルのFGVR能力を向上するMLLMである。
我々は、オブジェクト-属性対と属性-カテゴリ対を同時に比較学習し、類似しているが誤ったカテゴリの例をハードネガティブとして利用する。
複数の人気のあるFGVRデータセットに対する広範囲な評価は、Finedeficsが既存のMLLMを同等のパラメータサイズで上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-25T08:52:43Z) - Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [21.926934384262594]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の点で、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正されると,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - CoVLM: Leveraging Consensus from Vision-Language Models for Semi-supervised Multi-modal Fake News Detection [15.264492633817774]
我々は、実画像と偽ニュースを生成する誤ったキャプションをペアリングする、文脈外誤情報検出の現実的かつ挑戦的な課題に対処する。
このタスクの既存のアプローチは、大量のラベル付きデータの可用性を前提としています。
そこで本研究では,ラベル付き画像テキストペアとラベルなし画像ペアの大規模コーパスに限定的にアクセス可能な半教師付きプロトコルを提案する。
論文 参考訳(メタデータ) (2024-10-06T09:45:20Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - CELDA: Leveraging Black-box Language Model as Enhanced Classifier
without Labels [14.285609493077965]
クラスタリング強化線形識別分析(Linar Discriminative Analysis)は、非常に弱いスーパービジョン信号を用いてテキスト分類精度を向上させる新しい手法である。
我々のフレームワークは、LMモデルやデータラベルの重みや勾配にアクセスすることなく、正確な決定境界を描画する。
論文 参考訳(メタデータ) (2023-06-05T08:35:31Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Unlearnable Clusters: Towards Label-agnostic Unlearnable Examples [128.25509832644025]
インターネット上の視覚的プライバシー漏洩に対して、未学習の例(UE)を開発することへの関心が高まっている。
UEは、目に見えないが学習不可能なノイズを付加したトレーニングサンプルであり、機械学習モデルの不正なトレーニングを防ぐことができる。
本稿では,無学習クラスタ (UC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-31T04:26:25Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。