論文の概要: Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2506.03195v1
- Date: Sun, 01 Jun 2025 09:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.935165
- Title: Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs
- Title(参考訳): マルチモーダルLCMによる微粒化画像ゼロショット分類の改善
- Authors: Yunqi Hong, Sohyun An, Andrew Bai, Neil Y. C. Lin, Cho-Jui Hsieh,
- Abstract要約: AutoSEPは、きめ細かい分類機能を強化するために設計された、自己教師型プロンプト学習フレームワークである。
私たちの中核となる考え方は、ラベルのないデータを活用して、MLLMに重要な差別的特徴を特定するための説明プロンプトを学ぶことです。
AutoSEPは、標準のゼロショット分類よりも平均で13%、最高のパフォーマンスのベースラインよりも5%改善している。
- 参考スコア(独自算出の注目度): 44.21486904657393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite Multimodal Large Language Models (MLLMs) showing promising results on general zero-shot image classification tasks, fine-grained image classification remains challenging. It demands precise attention to subtle visual details to distinguish between visually similar subcategories--details that MLLMs may easily overlook without explicit guidance. To address this, we introduce AutoSEP, an iterative self-supervised prompt learning framework designed to enhance MLLM fine-grained classification capabilities in a fully unsupervised manner. Our core idea is to leverage unlabeled data to learn a description prompt that guides MLLMs in identifying crucial discriminative features within an image, and boosts classification accuracy. We developed an automatic self-enhancing prompt learning framework called AutoSEP to iteratively improve the description prompt using unlabeled data, based on instance-level classification scoring function. AutoSEP only requires black-box access to MLLMs, eliminating the need for any training or fine-tuning. We evaluate our approach on multiple fine-grained classification datasets. It consistently outperforms other unsupervised baselines, demonstrating the effectiveness of our self-supervised optimization framework. Notably, AutoSEP on average improves 13 percent over standard zero-shot classification and 5 percent over the best-performing baselines. Code is available at: https://github.com/yq-hong/AutoSEP
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、一般的なゼロショット画像分類タスクにおいて有望な結果を示すが、きめ細かい画像分類は依然として難しい。
視覚的に類似したサブカテゴリを区別するためには、微妙な視覚的詳細に正確に注意する必要がある。
そこで本稿では,MLLMの詳細な分類能力を,教師なしの方法で向上させるための,反復的自己教師型プロンプト学習フレームワークであるAutoSEPを紹介する。
私たちの中核となる考え方は、ラベルのないデータを活用して、MLLMを画像内の重要な識別的特徴を特定するための説明プロンプトを学習し、分類精度を高めることです。
我々は、インスタンスレベルの分類スコアリング機能に基づいて、ラベルなしデータを用いて記述プロンプトを反復的に改善するAutoSEPと呼ばれる自動自己強化プロンプト学習フレームワークを開発した。
AutoSEPはMLLMへのブラックボックスアクセスしか必要とせず、トレーニングや微調整は不要である。
我々は,複数の細粒度分類データセットに対するアプローチを評価する。
他の教師なしのベースラインを一貫して上回り、自己監督最適化フレームワークの有効性を実証します。
特にAutoSEPの平均は、標準のゼロショットの分類よりも13%、最高のパフォーマンスのベースラインよりも5%改善している。
コードは、https://github.com/yq-hong/AutoSEPで入手できる。
関連論文リスト
- EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection [21.091101582856183]
本稿では,効率的なゼロショットHOI検出(EZ-HOI)のための新しい学習フレームワークを提案する。
まず、学習可能なプロンプトに対してLarge Language Model(LLM)とVLMガイダンスを導入し、詳細なHOI記述と視覚的セマンティクスを統合して、VLMをHOIタスクに適用する。
我々は,既存の手法と比較して,トレーニング可能なパラメータの10.35%から33.95%しか持たない,さまざまなゼロショット設定における最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-10-31T13:06:29Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Boosting Prompt-Based Self-Training With Mapping-Free Automatic
Verbalizer for Multi-Class Classification [3.647905567437244]
マッピング不要な自動言語モデリングツール (MAV) という,新しい効率的な動詞体系を導入する。
MAVは、予測から利用可能な全ての情報に乗じて、分類に必要な単語の特徴を自動的に抽出する訓練可能な発声器として機能する。
5つの多クラス分類データセットの実験結果は、MAVの優れた自己学習効果を示している。
論文 参考訳(メタデータ) (2023-12-08T11:43:00Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。