論文の概要: Investigating the Limitation of CLIP Models: The Worst-Performing
Categories
- arxiv url: http://arxiv.org/abs/2310.03324v1
- Date: Thu, 5 Oct 2023 05:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:08:09.274277
- Title: Investigating the Limitation of CLIP Models: The Worst-Performing
Categories
- Title(参考訳): CLIPモデルの限界を探る: 最悪のパフォーマンスカテゴリ
- Authors: Jie-Jing Shao, Jiang-Xin Shi, Xiao-Wen Yang, Lan-Zhe Guo, Yu-Feng Li
- Abstract要約: コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
- 参考スコア(独自算出の注目度): 53.360239882501325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) provides a foundation model by
integrating natural language into visual concepts, enabling zero-shot
recognition on downstream tasks. It is usually expected that satisfactory
overall accuracy can be achieved across numerous domains through well-designed
textual prompts. However, we found that their performance in the worst
categories is significantly inferior to the overall performance. For example,
on ImageNet, there are a total of 10 categories with class-wise accuracy as low
as 0\%, even though the overall performance has achieved 64.1\%. This
phenomenon reveals the potential risks associated with using CLIP models,
particularly in risk-sensitive applications where specific categories hold
significant importance. To address this issue, we investigate the alignment
between the two modalities in the CLIP model and propose the Class-wise
Matching Margin (\cmm) to measure the inference confusion. \cmm\ can
effectively identify the worst-performing categories and estimate the potential
performance of the candidate prompts. We further query large language models to
enrich descriptions of worst-performing categories and build a weighted
ensemble to highlight the efficient prompts. Experimental results clearly
verify the effectiveness of our proposal, where the accuracy on the worst-10
categories on ImageNet is boosted to 5.2\%, without manual prompt engineering,
laborious optimization, or access to labeled validation data.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP)は、自然言語を視覚概念に統合し、下流タスクでのゼロショット認識を可能にする基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
例えば、ImageNetでは、全体的なパフォーマンスが64.1\%に達したにもかかわらず、クラス単位での精度が0\%まで低い10のカテゴリがある。
この現象はクリップモデルの使用、特に特定のカテゴリが重要なリスクに敏感なアプリケーションにおける潜在的なリスクを明らかにする。
この問題に対処するために,CLIPモデルの2つのモード間のアライメントを調査し,推論の混乱を測定するためのクラスワイドマッチングマージン(\cmm)を提案する。
\cmm\ は、最もパフォーマンスの悪いカテゴリを効果的に識別し、候補プロンプトの潜在的なパフォーマンスを推定することができる。
さらに,大きな言語モデルに問い合わせて,パフォーマンスの悪いカテゴリの記述を豊かにするとともに,効率的なプロンプトを強調する重み付けアンサンブルを構築します。
実験の結果,ImageNet上の最悪の10カテゴリの精度は,手動のプロンプトエンジニアリング,精巧な最適化,ラベル付きバリデーションデータへのアクセスなしに5.2\%に向上した。
関連論文リスト
- On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models [0.0]
本稿では,従来のCLIP手法の制約を克服する革新的なフレームワークであるCascadeVLMを紹介する。
様々なきめ細かい画像データセットに対する実験により、CascadeVLMは既存のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-05-18T14:12:04Z) - Dual-Modal Prompting for Sketch-Based Image Retrieval [76.12076969949062]
本稿では、適応的なプロンプト戦略を設計したデュアルモーダルCLIP(DP-CLIP)ネットワークを提案する。
ターゲットカテゴリとテキストカテゴリラベル内に一連の画像を用いて,カテゴリ適応型プロンプトトークンとチャネルスケールをそれぞれ構成する。
我々のDP-CLIPは、Sketchyデータセット上のAcc.@1において、最先端の微細ゼロショット法を7.3%向上させる。
論文 参考訳(メタデータ) (2024-04-29T13:43:49Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science [27.727207443432278]
本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。
その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
論文 参考訳(メタデータ) (2023-05-23T17:48:21Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Towards Reliable Zero Shot Classification in Self-Supervised Models with
Conformal Prediction [0.688204255655161]
我々は,所定のテストキャプションを確実に使用できるかを評価するためのコンフォメーション予測手法を開発した。
提案手法により, ゼロショット分類設定におけるCLIPスタイルモデルの信頼性が向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T23:52:14Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Prune Responsibly [0.913755431537592]
機械学習アプリケーションにおける特定の公正性の定義を無視すると、基礎となるモデルを刈り取ることがそれに影響を及ぼす。
本研究では,100万以上の画像分類モデルを対象としたタスクやアーキテクチャにおいて,望ましくない性能不均衡の出現と悪化を調査・記録する。
ニューラルネットワークプルーニングに関する実際のエンジニアリング意思決定において、バイアス、公平性、包括的メトリクスを含む透過的なレポートの必要性を実証する。
論文 参考訳(メタデータ) (2020-09-10T04:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。