論文の概要: When are Lemons Purple? The Concept Association Bias of CLIP
- arxiv url: http://arxiv.org/abs/2212.12043v1
- Date: Thu, 22 Dec 2022 21:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:07:13.370427
- Title: When are Lemons Purple? The Concept Association Bias of CLIP
- Title(参考訳): レモンはいつ紫ですか。
CLIPのコンセプトアソシエーションバイアス
- Authors: Yutaro Yamada, Yingtian Tang, Ilker Yildirim
- Abstract要約: コンセプト・アソシエーション・バイアス(CAB)と呼ばれるCLIPの現象について検討する。
CABは、与えられた画像に2つの概念が存在するのに対して、テキストプロンプトは1つの概念のみを含む場合、特に顕著である。
私たちは、CLIPが画像とテキストの埋め込みをまたいでより深い構造を学べるようになれば、CABは大幅に軽減されることを示した。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models such as CLIP have shown impressive
performance on zero-shot image classification and image-to-text retrieval.
However, such zero-shot performance of CLIP-based models does not realize in
tasks that require a finer-grained correspondence between vision and language,
such as Visual Question Answering (VQA). We investigate why this is the case,
and report an interesting phenomenon of CLIP, which we call the Concept
Association Bias (CAB), as a potential cause of the difficulty of applying CLIP
to VQA and similar tasks. CAB is especially apparent when two concepts are
present in the given image while a text prompt only contains a single concept.
In such a case, we find that CLIP tends to treat input as a bag of concepts and
attempts to fill in the other missing concept crossmodally, leading to an
unexpected zero-shot prediction. For example, when asked for the color of a
lemon in an image, CLIP predicts ``purple'' if the image contains a lemon and
an eggplant. We demonstrate the Concept Association Bias of CLIP by showing
that CLIP's zero-shot classification performance greatly suffers when there is
a strong concept association between an object (e.g. lemon) and an attribute
(e.g. its color). On the other hand, when the association between object and
attribute is weak, we do not see this phenomenon. Furthermore, we show that CAB
is significantly mitigated when we enable CLIP to learn deeper structure across
image and text embeddings by adding an additional Transformer on top of CLIP
and fine-tuning it on VQA. We find that across such fine-tuned variants of
CLIP, the strength of CAB in a model predicts how well it performs on VQA.
- Abstract(参考訳): CLIPのような大規模視覚言語モデルは、ゼロショット画像分類と画像からテキストへの検索において顕著な性能を示している。
しかし、このようなCLIPベースのモデルのゼロショット性能は、視覚的質問回答(VQA)のような視覚と言語間のよりきめ細かい対応を必要とするタスクでは実現しない。
ここでは,CLIPをVQAや類似タスクに適用することの難しさの潜在的原因として,CAB(Concept Association Bias)と呼ぶCLIPの興味深い現象を報告する。
CABは、与えられた画像に2つの概念が存在するのに対して、テキストプロンプトは1つの概念のみを含む場合、特に顕著である。
このようなケースでは、CLIPは入力を概念の袋として扱う傾向があり、他の欠落した概念をクロスモーダルに埋めようとするため、予期せぬゼロショット予測が導かれる。
例えば、画像中のレモンの色を尋ねると、CLIPは、イメージにレモンとナスが含まれている場合、'purple'を予測します。
対象物(例えばレモン)と属性(例えばその色)との間に強い概念関連がある場合、CLIPのゼロショット分類性能が著しく低下することを示し、CLIPの概念関連バイアスを実証する。
一方、対象と属性の関係が弱い場合には、この現象は見られない。
さらに、CLIP上にTransformerを追加し、VQAで微調整することで、CLIPが画像とテキストの埋め込みにわたってより深い構造を学べるようになると、CABは大幅に緩和される。
このような微調整されたCLIPでは,モデル内のCABの強度がVQA上での性能を予測できることがわかった。
関連論文リスト
- What do we learn from inverting CLIP models? [116.14073114908614]
CLIPモデルを反転すると、指定されたターゲットプロンプトとセマンティックアライメントを示すイメージが生成される。
これらの逆画像を利用して、CLIPモデルの様々な側面について洞察を得る。
論文 参考訳(メタデータ) (2024-03-05T01:32:29Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [12.872308743619403]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - From Association to Generation: Text-only Captioning by Unsupervised
Cross-modal Mapping [20.67415815472257]
画像キャプションとビデオキャプションの関連付けから生成までのゼロショット手法を提案する。
Knight State-of-the-Artは、画像キャプションとビデオキャプションのゼロショット方式でパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-26T04:06:20Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - Does CLIP Bind Concepts? Probing Compositionality in Large Image Models [19.68709616891511]
本研究では,大規模な事前学習型視覚・言語モデル(CLIP)の合成概念を符号化する能力について検討する。
CLIPは単一オブジェクト設定で概念を構成することができるが、概念バインディングが必要な状況では、パフォーマンスが劇的に低下する。
論文 参考訳(メタデータ) (2022-12-20T18:46:28Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Delving into the Openness of CLIP [35.371811948506796]
コントラスト言語-画像事前学習モデルの開放性を評価する。
評価の結果,CLIP様モデルは真のオープンではなく,語彙が拡大するにつれて性能が低下することがわかった。
調査の結果,オープンさの過大評価は,競合するテキスト機能間の混同に起因することが明らかとなった。
論文 参考訳(メタデータ) (2022-06-04T13:07:30Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。