論文の概要: Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2404.07983v2
- Date: Thu, 10 Oct 2024 17:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:08.185433
- Title: Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models
- Title(参考訳): 1つのトリガー: 対照的な視覚・言語モデルにおけるモダリティギャップ、対象バイアス、情報不均衡について
- Authors: Simon Schrodi, David T. Hoffmann, Max Argus, Volker Fischer, Thomas Brox,
- Abstract要約: コントラスト視覚言語モデル(VLM)は、様々な下流タスクに適用可能であることで人気を集めている。
ゼロショットオブジェクト認識のようないくつかのタスクで成功しているにもかかわらず、属性認識のような他のタスクでは驚くほど貧弱である。
これまでの研究では、これらの課題は、モダリティギャップ、共有表現空間における画像とテキストの分離、属性などの他の要因に対するオブジェクトに対するバイアスなどによるものだった。
- 参考スコア(独自算出の注目度): 27.618704505738425
- License:
- Abstract: Contrastive vision-language models (VLMs), like CLIP, have gained popularity for their versatile applicability to various downstream tasks. Despite their successes in some tasks, like zero-shot object recognition, they perform surprisingly poor on other tasks, like attribute recognition. Previous work has attributed these challenges to the modality gap, a separation of image and text in the shared representation space, and to a bias towards objects over other factors, such as attributes. In this analysis paper, we investigate both phenomena thoroughly. We evaluated off-the-shelf VLMs and find that while the gap's influence on performance is typically overshadowed by other factors, we find indications that closing the gap indeed leads to improvements. Moreover, we find that, contrary to intuition, only few embedding dimensions drive the gap and that the embedding spaces are differently organized. To allow for a clean study of object bias, we introduce a definition and a corresponding measure of it. Equipped with this tool, we find that object bias does not lead to worse performance on other concepts, such as attributes per se. However, why do both phenomena, modality gap and object bias, emerge in the first place? To answer this fundamental question and uncover some of the inner workings of contrastive VLMs, we conducted experiments that allowed us to control the amount of shared information between the modalities. These experiments revealed that the driving factor behind both the modality gap and the object bias, is an information imbalance between images and captions, and unveiled an intriguing connection between the modality gap and entropy of the logits.
- Abstract(参考訳): 対照的な視覚言語モデル(VLM)は、CLIPと同様に、様々な下流タスクに適用可能であることで人気を集めている。
ゼロショットオブジェクト認識のようないくつかのタスクで成功しているにもかかわらず、属性認識のような他のタスクでは驚くほど貧弱である。
これまでの研究では、これらの課題は、モダリティギャップ、共有表現空間における画像とテキストの分離、属性などの他の要因に対するオブジェクトに対するバイアスなどによるものだった。
本稿では,両現象を徹底的に研究する。
我々は、市販のVLMを評価し、そのギャップがパフォーマンスに与える影響は、他の要因によって誇張されているのに対して、ギャップを閉じることが実際に改善につながることの兆候を見出した。
さらに、直観とは対照的に、埋め込み次元のみがギャップを駆動し、埋め込み空間は異なる組織化されていることが分かる。
対象バイアスをきれいに研究するために,定義とそれに対応する尺度を導入する。
このツールによって、オブジェクトのバイアスが個々の属性など他の概念のパフォーマンスを悪化させることはないことが分かりました。
しかし、そもそもなぜ両方の現象、モダリティギャップ、オブジェクトバイアスが現れるのか?
この基本的疑問に答え、対照的なVLMの内部構造を明らかにするために、モーダル間の共有情報の量を制御する実験を行った。
これらの実験により、モダリティギャップと物体バイアスの両方の背後にある駆動因子が画像とキャプション間の情報不均衡であり、ロジットのモダリティギャップとエントロピーの間に興味深いつながりがあることが判明した。
関連論文リスト
- Is This the Subspace You Are Looking for? An Interpretability Illusion
for Subspace Activation Patching [47.05588106164043]
機械的解釈可能性(Mechanistic Interpretability)は、特定の、解釈可能な特徴の観点からモデル行動を理解することを目的としている。
最近の研究は、モデル行動を操作し、その背後にある特徴を与えられた部分空間とみなす方法として、サブスペース介入を探求している。
これらの2つの目的が多様であることを示し、潜在的に説明可能性という幻想的な感覚に繋がる可能性があることを実証する。
論文 参考訳(メタデータ) (2023-11-28T18:32:19Z) - Identifying Linearly-Mixed Causal Representations from Multi-Node Interventions [14.586959818386765]
因果表現学習において、複数の変数を1つの環境内の介入によって対象とすることができる最初の識別可能性結果を提供する。
我々のアプローチは、環境全体にわたる介入のカバレッジと多様性に関する一般的な仮定に基づいている。
理論的貢献に加えて,多ノード干渉データから因果表現を学習するための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-05T16:05:00Z) - Joint Salient Object Detection and Camouflaged Object Detection via
Uncertainty-aware Learning [47.253370009231645]
本稿では,SOD と Camouflaged Object Detection (COD) の矛盾する情報を探るため,不確実性を考慮した学習パイプラインを提案する。
我々の解決策は、最先端の性能と情報的不確実性の推定の両方につながる。
論文 参考訳(メタデータ) (2023-07-10T15:49:37Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Chairs Can be Stood on: Overcoming Object Bias in Human-Object
Interaction Detection [22.3445174577181]
画像中のHuman-Object Interaction(HOI)は、高レベルの視覚的理解に向けた重要なステップである。
本稿では,検出対象下でのインタラクションの分散を再バランスする,新しいプラグアンドプレイ型オブジェクト指向デバイアスメモリ(ODM)手法を提案する。
提案手法は,特に各オブジェクト下での稀な相互作用において,ベースラインよりも一貫した,重要な改善をもたらす。
論文 参考訳(メタデータ) (2022-07-06T01:55:28Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。