論文の概要: TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification
- arxiv url: http://arxiv.org/abs/2503.12206v1
- Date: Sat, 15 Mar 2025 17:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:22.691366
- Title: TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification
- Title(参考訳): TLAC: ゼロショット分類のための2段階LMM拡張CLIP
- Authors: Ans Munir, Faisal Z. Qureshi, Muhammad Haris Khan, Mohsen Ali,
- Abstract要約: 対照的な言語-画像事前訓練は、画像分類において印象的なゼロショット性能を示した。
最先端の手法は、しばしばCLIPのパフォーマンスを最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。
単段階 LMM Augmented CLIP (SLAC) と2段階 LMM Augmented CLIP (TLAC) を導入した。
私たちは11のベース・ツー・ノーベルデータセットでモデルを評価し、ImageNet、SUN397、Caltech101などのベンチマークを含む9つのデータセットでより優れた精度を達成しました。
- 参考スコア(独自算出の注目度): 12.558701595138928
- License:
- Abstract: Contrastive Language-Image Pretraining (CLIP) has shown impressive zero-shot performance on image classification. However, state-of-the-art methods often rely on fine-tuning techniques like prompt learning and adapter-based tuning to optimize CLIP's performance. The necessity for fine-tuning significantly limits CLIP's adaptability to novel datasets and domains. This requirement mandates substantial time and computational resources for each new dataset. To overcome this limitation, we introduce simple yet effective training-free approaches, Single-stage LMM Augmented CLIP (SLAC) and Two-stage LMM Augmented CLIP (TLAC), that leverages powerful Large Multimodal Models (LMMs), such as Gemini, for image classification. The proposed methods leverages the capabilities of pre-trained LMMs, allowing for seamless adaptation to diverse datasets and domains without the need for additional training. Our approaches involve prompting the LMM to identify objects within an image. Subsequently, the CLIP text encoder determines the image class by identifying the dataset class with the highest semantic similarity to the LLM predicted object. We evaluated our models on 11 base-to-novel datasets and they achieved superior accuracy on 9 of these, including benchmarks like ImageNet, SUN397 and Caltech101, while maintaining a strictly training-free paradigm. Our overall accuracy of 83.44% surpasses the previous state-of-the-art few-shot methods by a margin of 6.75%. Our method achieved 83.6% average accuracy across 13 datasets, a 9.7% improvement over the previous 73.9% state-of-the-art for training-free approaches. Our method improves domain generalization, with a 3.6% gain on ImageNetV2, 16.96% on ImageNet-S, and 12.59% on ImageNet-R, over prior few-shot methods.
- Abstract(参考訳): Contrastive Language- Image Pretraining (CLIP) は画像分類において印象的なゼロショット性能を示した。
しかし、最先端の手法は、しばしばCLIPの性能を最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。
微調整の必要性は、CLIPの新たなデータセットやドメインへの適応性を著しく制限する。
この要件は、新しいデータセットごとにかなりの時間と計算資源を割り当てる。
この制限を克服するために、画像分類にGeminiのような強力な大規模マルチモーダルモデル(LMM)を活用する単段LMM拡張CLIP(SLAC)と二段LMM拡張CLIP(TLAC)を導入する。
提案手法は、事前学習されたLMMの機能を活用し、追加のトレーニングを必要とせず、多様なデータセットやドメインへのシームレスな適応を可能にする。
我々のアプローチでは、画像内のオブジェクトをLMMに識別させる。
その後、CLIPテキストエンコーダは、LLM予測オブジェクトと最もセマンティック類似度の高いデータセットクラスを識別することにより、画像クラスを決定する。
ImageNet, SUN397, Caltech101などのベンチマークでは, 厳密なトレーニングなしのパラダイムを維持しながら, 9つのベース・ツー・ノーベルデータセットでモデルを評価した。
我々の全体の精度は83.44%で、これまでの最先端の数ショット法を6.75%上回っている。
我々の手法は13のデータセットの平均精度83.6%を達成し、前回の73.9%と比べて9.7%改善した。
提案手法は,ImageNetV2では3.6%,ImageNet-Sでは16.96%,ImageNet-Rでは12.59%で,領域の一般化が向上する。
関連論文リスト
- Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via
Feature Distillation [42.37533586611174]
Masked Image Modeling (MIM)は、非常に優れた微調整性能を持つ表現を学習する。
本稿では, 簡単な後処理により, 事前学習手法の微調整性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2022-05-27T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。