論文の概要: When are Lemons Purple? The Concept Association Bias of CLIP
- arxiv url: http://arxiv.org/abs/2212.12043v1
- Date: Thu, 22 Dec 2022 21:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:07:13.370427
- Title: When are Lemons Purple? The Concept Association Bias of CLIP
- Title(参考訳): レモンはいつ紫ですか。
CLIPのコンセプトアソシエーションバイアス
- Authors: Yutaro Yamada, Yingtian Tang, Ilker Yildirim
- Abstract要約: コンセプト・アソシエーション・バイアス(CAB)と呼ばれるCLIPの現象について検討する。
CABは、与えられた画像に2つの概念が存在するのに対して、テキストプロンプトは1つの概念のみを含む場合、特に顕著である。
私たちは、CLIPが画像とテキストの埋め込みをまたいでより深い構造を学べるようになれば、CABは大幅に軽減されることを示した。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models such as CLIP have shown impressive
performance on zero-shot image classification and image-to-text retrieval.
However, such zero-shot performance of CLIP-based models does not realize in
tasks that require a finer-grained correspondence between vision and language,
such as Visual Question Answering (VQA). We investigate why this is the case,
and report an interesting phenomenon of CLIP, which we call the Concept
Association Bias (CAB), as a potential cause of the difficulty of applying CLIP
to VQA and similar tasks. CAB is especially apparent when two concepts are
present in the given image while a text prompt only contains a single concept.
In such a case, we find that CLIP tends to treat input as a bag of concepts and
attempts to fill in the other missing concept crossmodally, leading to an
unexpected zero-shot prediction. For example, when asked for the color of a
lemon in an image, CLIP predicts ``purple'' if the image contains a lemon and
an eggplant. We demonstrate the Concept Association Bias of CLIP by showing
that CLIP's zero-shot classification performance greatly suffers when there is
a strong concept association between an object (e.g. lemon) and an attribute
(e.g. its color). On the other hand, when the association between object and
attribute is weak, we do not see this phenomenon. Furthermore, we show that CAB
is significantly mitigated when we enable CLIP to learn deeper structure across
image and text embeddings by adding an additional Transformer on top of CLIP
and fine-tuning it on VQA. We find that across such fine-tuned variants of
CLIP, the strength of CAB in a model predicts how well it performs on VQA.
- Abstract(参考訳): CLIPのような大規模視覚言語モデルは、ゼロショット画像分類と画像からテキストへの検索において顕著な性能を示している。
しかし、このようなCLIPベースのモデルのゼロショット性能は、視覚的質問回答(VQA)のような視覚と言語間のよりきめ細かい対応を必要とするタスクでは実現しない。
ここでは,CLIPをVQAや類似タスクに適用することの難しさの潜在的原因として,CAB(Concept Association Bias)と呼ぶCLIPの興味深い現象を報告する。
CABは、与えられた画像に2つの概念が存在するのに対して、テキストプロンプトは1つの概念のみを含む場合、特に顕著である。
このようなケースでは、CLIPは入力を概念の袋として扱う傾向があり、他の欠落した概念をクロスモーダルに埋めようとするため、予期せぬゼロショット予測が導かれる。
例えば、画像中のレモンの色を尋ねると、CLIPは、イメージにレモンとナスが含まれている場合、'purple'を予測します。
対象物(例えばレモン)と属性(例えばその色)との間に強い概念関連がある場合、CLIPのゼロショット分類性能が著しく低下することを示し、CLIPの概念関連バイアスを実証する。
一方、対象と属性の関係が弱い場合には、この現象は見られない。
さらに、CLIP上にTransformerを追加し、VQAで微調整することで、CLIPが画像とテキストの埋め込みにわたってより深い構造を学べるようになると、CABは大幅に緩和される。
このような微調整されたCLIPでは,モデル内のCABの強度がVQA上での性能を予測できることがわかった。
関連論文リスト
- Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Auxiliary Losses for Learning Generalizable Concept-based Models [5.4066453042367435]
コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) は導入以来人気を集めている。
CBMは基本的に、モデルの潜在空間を人間に理解可能な高レベルな概念に制限する。
本稿では,協調型コンセプション・ボトルネックモデル(coop-CBM)を提案し,性能トレードオフを克服する。
論文 参考訳(メタデータ) (2023-11-18T15:50:07Z) - Using Visual Cropping to Enhance Fine-Detail Question Answering of
BLIP-Family Models [6.063024872936599]
視覚的トリミングは,詳細な質問に対して,最先端の視覚的質問応答モデルの性能を向上させることができるかを検討する。
CLIPとBLIPビジュアルQAモデル勾配によるマルチモーダル埋め込みに基づく2つの自動収穫戦略を考案する。
原画像と勾配画像の連結を単純に入力することで,一般VQAランダムタスクの4.59%(絶対)の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T22:48:27Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。