論文の概要: TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification
- arxiv url: http://arxiv.org/abs/2503.12206v2
- Date: Mon, 21 Apr 2025 04:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 15:07:02.277188
- Title: TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification
- Title(参考訳): TLAC: ゼロショット分類のための2段階LMM拡張CLIP
- Authors: Ans Munir, Faisal Z. Qureshi, Muhammad Haris Khan, Mohsen Ali,
- Abstract要約: 対照的な言語-画像事前訓練は、画像分類において印象的なゼロショット性能を示した。
最先端の手法は、しばしばCLIPのパフォーマンスを最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。
単段階 LMM Augmented CLIP (SLAC) と2段階 LMM Augmented CLIP (TLAC) を導入した。
私たちのモデルは、ImageNet、SUN397、Caltech101を含む11のベース・ツー・ノーベルデータセットのうち9つの精度で達成しました。
- 参考スコア(独自算出の注目度): 12.558701595138928
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) has shown impressive zero-shot performance on image classification. However, state-of-the-art methods often rely on fine-tuning techniques like prompt learning and adapter-based tuning to optimize CLIP's performance. The necessity for fine-tuning significantly limits CLIP's adaptability to novel datasets and domains. This requirement mandates substantial time and computational resources for each new dataset. To overcome this limitation, we introduce simple yet effective training-free approaches, Single-stage LMM Augmented CLIP (SLAC) and Two-stage LMM Augmented CLIP (TLAC), that leverages powerful Large Multimodal Models (LMMs), such as Gemini, for image classification. The proposed methods leverages the capabilities of pre-trained LMMs, allowing for seamless adaptation to diverse datasets and domains without the need for additional training. Our approaches involve prompting the LMM to identify objects within an image. Subsequently, the CLIP text encoder determines the image class by identifying the dataset class with the highest semantic similarity to the LLM predicted object. Our models achieved superior accuracy on 9 of 11 base-to-novel datasets, including ImageNet, SUN397, and Caltech101, while maintaining a strictly training-free paradigm. Our TLAC model achieved an overall accuracy of 83.44%, surpassing the previous state-of-the-art few-shot methods by a margin of 6.75%. Compared to other training-free approaches, our TLAC method achieved 83.6% average accuracy across 13 datasets, a 9.7% improvement over the previous methods. Our Code is available at https://github.com/ans92/TLAC
- Abstract(参考訳): Contrastive Language- Image Pretraining (CLIP) は画像分類において印象的なゼロショット性能を示した。
しかし、最先端の手法は、しばしばCLIPの性能を最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。
微調整の必要性は、CLIPの新たなデータセットやドメインへの適応性を著しく制限する。
この要件は、新しいデータセットごとにかなりの時間と計算資源を割り当てる。
この制限を克服するために、画像分類にGeminiのような強力な大規模マルチモーダルモデル(LMM)を活用する単段LMM拡張CLIP(SLAC)と二段LMM拡張CLIP(TLAC)を導入する。
提案手法は、事前学習されたLMMの機能を活用し、追加のトレーニングを必要とせず、多様なデータセットやドメインへのシームレスな適応を可能にする。
我々のアプローチでは、画像内のオブジェクトをLMMに識別させる。
その後、CLIPテキストエンコーダは、LLM予測オブジェクトと最もセマンティック類似度の高いデータセットクラスを識別することにより、画像クラスを決定する。
私たちのモデルは、ImageNet、SUN397、Caltech101を含む11のベース・ツー・ノーベルデータセットのうち9つにおいて、厳密なトレーニング不要のパラダイムを維持しながら、優れた精度を達成しました。
我々のTLACモデルは全体の83.44%の精度を達成し、これまでの最先端の数ショット法を6.75%上回った。
他のトレーニングなしの手法と比較して、我々のTLAC法は13のデータセットの平均精度83.6%を達成し、以前の手法よりも9.7%改善した。
私たちのコードはhttps://github.com/ans92/TLACで利用可能です。
関連論文リスト
- Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification [13.238769012534922]
画像分類のための新しいクロスモーダルマッピング(CMM)手法を提案する。
CMMは、画像特徴とテキスト特徴空間を線形変換により整列する。
11のベンチマークデータセットでは、Top-1の平均精度が1.06%向上している。
論文 参考訳(メタデータ) (2024-12-28T10:40:21Z) - CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning [19.100022935748225]
データ選択は、大規模ビジュアル言語モデル(例えば、CLIP)のコア問題として浮上した。
3つの主要なデータ選択アプローチは、(1)データ選択を支援するために外部のCLIPモデルを活用すること、(2)高品質なデータを選択するのにより効果的な新しいCLIPスタイルの埋め込みモデルをトレーニングすること、(3)より優れたメトリクスや戦略をCLIP埋め込みに普遍的に適用することである。
論文 参考訳(メタデータ) (2024-05-29T22:19:57Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。