論文の概要: When are Lemons Purple? The Concept Association Bias of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2212.12043v2
- Date: Sat, 13 Apr 2024 17:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 00:36:54.878777
- Title: When are Lemons Purple? The Concept Association Bias of Vision-Language Models
- Title(参考訳): レモンはいつパープルか? : 視覚・言語モデルの概念的バイアス
- Authors: Yutaro Yamada, Yingtian Tang, Yoyo Zhang, Ilker Yildirim,
- Abstract要約: 概念アソシエーションバイアス(CAB)と呼ばれる視覚言語モデルの興味深い現象を報告する。
CABのモデルは、入力を概念の袋として扱い、他の欠落した概念をクロスモーダルに埋めようとする傾向にある。
CABは、自己回帰的損失を併用しても、対照的な損失で訓練された視覚言語モデルで一般的である。
- 参考スコア(独自算出の注目度): 4.937317162178896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models such as CLIP have shown impressive performance on zero-shot image classification and image-to-text retrieval. However, such performance does not realize in tasks that require a finer-grained correspondence between vision and language, such as Visual Question Answering (VQA). As a potential cause of the difficulty of applying these models to VQA and similar tasks, we report an interesting phenomenon of vision-language models, which we call the Concept Association Bias (CAB). We find that models with CAB tend to treat input as a bag of concepts and attempt to fill in the other missing concept crossmodally, leading to an unexpected zero-shot prediction. We demonstrate CAB by showing that CLIP's zero-shot classification performance greatly suffers when there is a strong concept association between an object (e.g. eggplant) and an attribute (e.g. color purple). We also show that the strength of CAB predicts the performance on VQA. We observe that CAB is prevalent in vision-language models trained with contrastive losses, even when autoregressive losses are jointly employed. However, a model that solely relies on autoregressive loss seems to exhibit minimal or no signs of CAB.
- Abstract(参考訳): CLIPのような大規模視覚言語モデルは、ゼロショット画像分類と画像からテキストへの検索において顕著な性能を示している。
しかし、視覚的質問応答(VQA)のような、視覚と言語間のよりきめ細かい対応を必要とするタスクでは、そのようなパフォーマンスは実現しない。
VQAなどの課題にこれらのモデルを適用することの難しさの潜在的原因として,概念アソシエーションバイアス(CAB)と呼ばれる視覚言語モデルの興味深い現象を報告した。
CABのモデルは、入力を概念の袋として扱い、他の欠落した概念をクロスモーダルに満たそうとする傾向があり、予期せぬゼロショット予測をもたらす。
また,CLIPのゼロショット分類性能は,対象物(egナス)と属性(eg色紫)との間に強い概念的関連がある場合に大きく低下することを示した。
また、CABの強度がVQAの性能を予測することも示している。
CABは、自己回帰的損失を併用しても、対照的な損失で訓練された視覚言語モデルで一般的である。
しかし、自己回帰的損失にのみ依存するモデルは、CABの兆候を最小または全く示さないようである。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting [27.439965991083177]
クラスカウント(Class counting, CAC)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚計算タスクである。
マルチクラスの設定を考えると、モデルは参照イメージを考慮せず、クエリイメージ内のすべての支配的なオブジェクトを盲目的にマッチさせます。
既存のCAC評価手法の背景にある問題を解決するための新しい評価プロトコルとメトリクスを導入する。
論文 参考訳(メタデータ) (2024-04-15T14:23:39Z) - Using Visual Cropping to Enhance Fine-Detail Question Answering of
BLIP-Family Models [6.063024872936599]
視覚的トリミングは,詳細な質問に対して,最先端の視覚的質問応答モデルの性能を向上させることができるかを検討する。
CLIPとBLIPビジュアルQAモデル勾配によるマルチモーダル埋め込みに基づく2つの自動収穫戦略を考案する。
原画像と勾配画像の連結を単純に入力することで,一般VQAランダムタスクの4.59%(絶対)の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T22:48:27Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。