Fugu-MT 論文翻訳(概要): TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification

論文の概要: TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification

arxiv url: http://arxiv.org/abs/2503.12206v1
Date: Sat, 15 Mar 2025 17:11:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.780722
Title: TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification
Title（参考訳）: TLAC: ゼロショット分類のための2段階LMM拡張CLIP
Authors: Ans Munir, Faisal Z. Qureshi, Muhammad Haris Khan, Mohsen Ali,
Abstract要約: 対照的な言語-画像事前訓練は、画像分類において印象的なゼロショット性能を示した。最先端の手法は、しばしばCLIPのパフォーマンスを最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。単段階 LMM Augmented CLIP (SLAC) と2段階 LMM Augmented CLIP (TLAC) を導入した。私たちは11のベース・ツー・ノーベルデータセットでモデルを評価し、ImageNet、SUN397、Caltech101などのベンチマークを含む9つのデータセットでより優れた精度を達成しました。
参考スコア（独自算出の注目度）: 12.558701595138928
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Contrastive Language-Image Pretraining (CLIP) has shown impressive zero-shot performance on image classification. However, state-of-the-art methods often rely on fine-tuning techniques like prompt learning and adapter-based tuning to optimize CLIP's performance. The necessity for fine-tuning significantly limits CLIP's adaptability to novel datasets and domains. This requirement mandates substantial time and computational resources for each new dataset. To overcome this limitation, we introduce simple yet effective training-free approaches, Single-stage LMM Augmented CLIP (SLAC) and Two-stage LMM Augmented CLIP (TLAC), that leverages powerful Large Multimodal Models (LMMs), such as Gemini, for image classification. The proposed methods leverages the capabilities of pre-trained LMMs, allowing for seamless adaptation to diverse datasets and domains without the need for additional training. Our approaches involve prompting the LMM to identify objects within an image. Subsequently, the CLIP text encoder determines the image class by identifying the dataset class with the highest semantic similarity to the LLM predicted object. We evaluated our models on 11 base-to-novel datasets and they achieved superior accuracy on 9 of these, including benchmarks like ImageNet, SUN397 and Caltech101, while maintaining a strictly training-free paradigm. Our overall accuracy of 83.44% surpasses the previous state-of-the-art few-shot methods by a margin of 6.75%. Our method achieved 83.6% average accuracy across 13 datasets, a 9.7% improvement over the previous 73.9% state-of-the-art for training-free approaches. Our method improves domain generalization, with a 3.6% gain on ImageNetV2, 16.96% on ImageNet-S, and 12.59% on ImageNet-R, over prior few-shot methods.
Abstract（参考訳）: Contrastive Language- Image Pretraining (CLIP) は画像分類において印象的なゼロショット性能を示した。しかし、最先端の手法は、しばしばCLIPの性能を最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。微調整の必要性は、CLIPの新たなデータセットやドメインへの適応性を著しく制限する。この要件は、新しいデータセットごとにかなりの時間と計算資源を割り当てる。この制限を克服するために、画像分類にGeminiのような強力な大規模マルチモーダルモデル(LMM)を活用する単段LMM拡張CLIP(SLAC)と二段LMM拡張CLIP(TLAC)を導入する。提案手法は、事前学習されたLMMの機能を活用し、追加のトレーニングを必要とせず、多様なデータセットやドメインへのシームレスな適応を可能にする。我々のアプローチでは、画像内のオブジェクトをLMMに識別させる。その後、CLIPテキストエンコーダは、LLM予測オブジェクトと最もセマンティック類似度の高いデータセットクラスを識別することにより、画像クラスを決定する。 ImageNet, SUN397, Caltech101などのベンチマークでは, 厳密なトレーニングなしのパラダイムを維持しながら, 9つのベース・ツー・ノーベルデータセットでモデルを評価した。我々の全体の精度は83.44%で、これまでの最先端の数ショット法を6.75%上回っている。我々の手法は13のデータセットの平均精度83.6%を達成し、前回の73.9%と比べて9.7%改善した。提案手法は,ImageNetV2では3.6%,ImageNet-Sでは16.96%,ImageNet-Rでは12.59%で,領域の一般化が向上する。

関連論文リスト

Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文参考訳（メタデータ） (2025-05-25T07:08:07Z)
Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification [13.238769012534922]
画像分類のための新しいクロスモーダルマッピング(CMM)手法を提案する。 CMMは、画像特徴とテキスト特徴空間を線形変換により整列する。 11のベンチマークデータセットでは、Top-1の平均精度が1.06%向上している。
論文参考訳（メタデータ） (2024-12-28T10:40:21Z)
CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文参考訳（メタデータ） (2024-10-07T17:59:59Z)
CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning [19.100022935748225]
データ選択は、大規模ビジュアル言語モデル(例えば、CLIP)のコア問題として浮上した。 3つの主要なデータ選択アプローチは、(1)データ選択を支援するために外部のCLIPモデルを活用すること、(2)高品質なデータを選択するのにより効果的な新しいCLIPスタイルの埋め込みモデルをトレーニングすること、(3)より優れたメトリクスや戦略をCLIP埋め込みに普遍的に適用することである。
論文参考訳（メタデータ） (2024-05-29T22:19:57Z)
Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。 CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文参考訳（メタデータ） (2023-11-07T07:27:16Z)
Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。 MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文参考訳（メタデータ） (2023-09-28T17:59:56Z)
No Data Augmentation? Alternative Regularizations for Effective Training on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文参考訳（メタデータ） (2023-09-04T16:13:59Z)
Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。 HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。 11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文参考訳（メタデータ） (2023-04-03T17:58:54Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文参考訳（メタデータ） (2023-02-01T17:44:17Z)
Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文参考訳（メタデータ） (2022-12-04T07:26:24Z)
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。 CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文参考訳（メタデータ） (2022-07-19T19:12:11Z)
Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。 MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文参考訳（メタデータ） (2022-06-07T02:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。