論文の概要: Investigating the Limitation of CLIP Models: The Worst-Performing
Categories
- arxiv url: http://arxiv.org/abs/2310.03324v1
- Date: Thu, 5 Oct 2023 05:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:08:09.274277
- Title: Investigating the Limitation of CLIP Models: The Worst-Performing
Categories
- Title(参考訳): CLIPモデルの限界を探る: 最悪のパフォーマンスカテゴリ
- Authors: Jie-Jing Shao, Jiang-Xin Shi, Xiao-Wen Yang, Lan-Zhe Guo, Yu-Feng Li
- Abstract要約: コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
- 参考スコア(独自算出の注目度): 53.360239882501325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) provides a foundation model by
integrating natural language into visual concepts, enabling zero-shot
recognition on downstream tasks. It is usually expected that satisfactory
overall accuracy can be achieved across numerous domains through well-designed
textual prompts. However, we found that their performance in the worst
categories is significantly inferior to the overall performance. For example,
on ImageNet, there are a total of 10 categories with class-wise accuracy as low
as 0\%, even though the overall performance has achieved 64.1\%. This
phenomenon reveals the potential risks associated with using CLIP models,
particularly in risk-sensitive applications where specific categories hold
significant importance. To address this issue, we investigate the alignment
between the two modalities in the CLIP model and propose the Class-wise
Matching Margin (\cmm) to measure the inference confusion. \cmm\ can
effectively identify the worst-performing categories and estimate the potential
performance of the candidate prompts. We further query large language models to
enrich descriptions of worst-performing categories and build a weighted
ensemble to highlight the efficient prompts. Experimental results clearly
verify the effectiveness of our proposal, where the accuracy on the worst-10
categories on ImageNet is boosted to 5.2\%, without manual prompt engineering,
laborious optimization, or access to labeled validation data.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP)は、自然言語を視覚概念に統合し、下流タスクでのゼロショット認識を可能にする基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
例えば、ImageNetでは、全体的なパフォーマンスが64.1\%に達したにもかかわらず、クラス単位での精度が0\%まで低い10のカテゴリがある。
この現象はクリップモデルの使用、特に特定のカテゴリが重要なリスクに敏感なアプリケーションにおける潜在的なリスクを明らかにする。
この問題に対処するために,CLIPモデルの2つのモード間のアライメントを調査し,推論の混乱を測定するためのクラスワイドマッチングマージン(\cmm)を提案する。
\cmm\ は、最もパフォーマンスの悪いカテゴリを効果的に識別し、候補プロンプトの潜在的なパフォーマンスを推定することができる。
さらに,大きな言語モデルに問い合わせて,パフォーマンスの悪いカテゴリの記述を豊かにするとともに,効率的なプロンプトを強調する重み付けアンサンブルを構築します。
実験の結果,ImageNet上の最悪の10カテゴリの精度は,手動のプロンプトエンジニアリング,精巧な最適化,ラベル付きバリデーションデータへのアクセスなしに5.2\%に向上した。
関連論文リスト
- ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Navigating Prompt Complexity for Zero-Shot Classification: A Study of
Large Language Models in Computational Social Science [28.921423984104287]
本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。
その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
論文 参考訳(メタデータ) (2023-05-23T17:48:21Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Towards Reliable Zero Shot Classification in Self-Supervised Models with
Conformal Prediction [0.688204255655161]
我々は,所定のテストキャプションを確実に使用できるかを評価するためのコンフォメーション予測手法を開発した。
提案手法により, ゼロショット分類設定におけるCLIPスタイルモデルの信頼性が向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T23:52:14Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Prune Responsibly [0.913755431537592]
機械学習アプリケーションにおける特定の公正性の定義を無視すると、基礎となるモデルを刈り取ることがそれに影響を及ぼす。
本研究では,100万以上の画像分類モデルを対象としたタスクやアーキテクチャにおいて,望ましくない性能不均衡の出現と悪化を調査・記録する。
ニューラルネットワークプルーニングに関する実際のエンジニアリング意思決定において、バイアス、公平性、包括的メトリクスを含む透過的なレポートの必要性を実証する。
論文 参考訳(メタデータ) (2020-09-10T04:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。