論文の概要: Rethinking the Openness of CLIP
- arxiv url: http://arxiv.org/abs/2206.01986v1
- Date: Sat, 4 Jun 2022 13:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 14:18:05.395517
- Title: Rethinking the Openness of CLIP
- Title(参考訳): CLIPのオープン性を再考する
- Authors: Shuhuai Ren, Lei Li, Xuancheng Ren, Guangxiang Zhao, Xu Sun
- Abstract要約: コントラスト言語-画像事前学習は、マッチングスタイルでオープン語彙画像分類を実現する大きな可能性を示している。
理論上は任意の語彙に対してオープンであるが、実際の精度は異なるため、CLIPのようなモデルのオープン性の評価と解析は困難である。
テキストの特徴を識別し,特徴空間の観点からCLIPの開放性を改善することを提案する。
- 参考スコア(独自算出の注目度): 35.371811948506796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has demonstrated great
potential in realizing open-vocabulary image classification in a matching
style, because of its holistic use of natural language supervision that covers
unconstrained real-world visual concepts. However, it is, in turn, also
difficult to evaluate and analyze the openness of CLIP-like models, since they
are in theory open to any vocabulary but the actual accuracy varies. To address
the insufficiency of conventional studies on openness, we resort to an
incremental view and define the extensibility, which essentially approximates
the model's ability to deal with new visual concepts, by evaluating openness
through vocabulary expansions. Our evaluation based on extensibility shows that
CLIP-like models are hardly truly open and their performances degrade as the
vocabulary expands to different degrees. Further analysis reveals that the
over-estimation of openness is not because CLIP-like models fail to capture the
general similarity of image and text features of novel visual concepts, but
because of the confusion among competing text features, that is, they are not
stable with respect to the vocabulary. In light of this, we propose to improve
the openness of CLIP from the perspective of feature space by enforcing the
distinguishability of text features. Our method retrieves relevant texts from
the pre-training corpus to enhance prompts for inference, which boosts the
extensibility and stability of CLIP even without fine-tuning.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は、制約のない現実世界の視覚概念を包含する自然言語の全体的利用により、マッチングスタイルでオープン語彙画像分類を実現する大きな可能性を示している。
しかし、理論上はどんな語彙にもオープンであるが実際の精度は異なるため、CLIPのようなモデルのオープン性の評価と解析も困難である。
オープン性に関する従来の研究の不十分さに対処するため,語彙展開を通じてオープン性を評価することにより,モデルが新しい視覚概念に対処する能力を本質的に近似する拡張性を定義する。
拡張性に基づく評価の結果,CLIP様モデルはほとんどオープンではなく,語彙が異なる程度に拡大するにつれて性能が低下することがわかった。
さらに分析したところ、CLIPのようなモデルが、新しい視覚概念のイメージとテキストの特徴の一般的な類似性を捉えないためではなく、競合するテキストの特徴の混同のため、語彙に関して安定していないことが判明した。
そこで本研究では,テキスト特徴の識別性を高めることにより,特徴空間の観点からクリップのオープン性を向上させることを提案する。
本手法は,事前学習コーパスから関連するテキストを抽出して推論のプロンプトを強化し,微調整することなくクリップの拡張性と安定性を高める。
関連論文リスト
- Interpreting and Analyzing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。
この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-16T20:18:21Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning [46.25534556546322]
そこで本稿では,イメージ・アンカー関係から画像・ターゲット関係に遷移して予測を行うアンカーとしてオープンセマンティクスを抽出することを提案する。
本手法は, 数ショットの分類設定を考慮し, 従来の最先端技術に対して良好に機能する。
論文 参考訳(メタデータ) (2024-06-17T06:28:58Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。