論文の概要: Delving into the Openness of CLIP
- arxiv url: http://arxiv.org/abs/2206.01986v3
- Date: Sun, 7 May 2023 15:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:56:03.984383
- Title: Delving into the Openness of CLIP
- Title(参考訳): クリップの開放性にこだわるさま
- Authors: Shuhuai Ren, Lei Li, Xuancheng Ren, Guangxiang Zhao, Xu Sun
- Abstract要約: コントラスト言語-画像事前学習モデルの開放性を評価する。
評価の結果,CLIP様モデルは真のオープンではなく,語彙が拡大するにつれて性能が低下することがわかった。
調査の結果,オープンさの過大評価は,競合するテキスト機能間の混同に起因することが明らかとなった。
- 参考スコア(独自算出の注目度): 35.371811948506796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) formulates image
classification as an image-to-text matching task, i.e., matching images to the
corresponding natural language descriptions instead of discrete category IDs.
This allows for open-vocabulary visual recognition, where the model can
recognize images from an open class set (also known as an open vocabulary) in a
zero-shot manner. However, evaluating the openness of CLIP-like models is
challenging, as the models are open to arbitrary vocabulary in theory, but
their accuracy varies in practice. To address this, we resort to an incremental
perspective to assess the openness through vocabulary expansions, and define
extensibility to measure a model's ability to handle novel classes. Our
evaluation shows that CLIP-like models are not truly open, and their
performance deteriorates as the vocabulary expands. We further dissect the
feature space of CLIP from the perspectives of representation alignment and
uniformity. Our investigation reveals that the overestimation of openness is
due to confusion among competing text features, rather than a failure to
capture the similarity between image features and text features of novel
classes. We hope that our investigation and analysis will facilitate future
research on the CLIP openness issue.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP)は、画像分類を画像とテキストのマッチングタスク、すなわち、個別のカテゴリIDの代わりに対応する自然言語記述とマッチングするタスクとして定式化する。
これによりオープン語彙認識が可能となり、オープンクラスセット(オープン語彙とも呼ばれる)からゼロショットで画像を認識することができる。
しかし,モデルが任意の語彙に対して理論上はオープンであるため,クリップ様モデルのオープン性を評価することは困難であるが,その正確性は実際には異なる。
これを解決するために,語彙拡張による開度評価を漸進的な視点に置き,新しいクラスを扱うモデルの能力を評価する拡張性を定義する。
評価の結果,CLIP様モデルは真のオープンではなく,語彙が拡大するにつれて性能が低下することがわかった。
我々はさらに、CLIPの特徴空間を、表現アライメントと均一性の観点から識別する。
オープン性の過大評価は,画像特徴と新規クラスのテキスト特徴の類似性を捉えられなかったのではなく,競合するテキスト特徴の混同によるものであることが明らかになった。
今後のCLIP開放性問題の調査と分析が促進されることを願っている。
関連論文リスト
- Interpreting and Analyzing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。
この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-16T20:18:21Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning [46.25534556546322]
そこで本稿では,イメージ・アンカー関係から画像・ターゲット関係に遷移して予測を行うアンカーとしてオープンセマンティクスを抽出することを提案する。
本手法は, 数ショットの分類設定を考慮し, 従来の最先端技術に対して良好に機能する。
論文 参考訳(メタデータ) (2024-06-17T06:28:58Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。