論文の概要: Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2404.07983v1
- Date: Thu, 11 Apr 2024 17:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 12:49:46.946660
- Title: Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning
- Title(参考訳): 1つのトリガー: 対照的な視覚・言語表現学習におけるモダリティギャップ、対象バイアス、情報不均衡について
- Authors: Simon Schrodi, David T. Hoffmann, Max Argus, Volker Fischer, Thomas Brox,
- Abstract要約: 数個の埋め込み次元だけがモダリティギャップを駆動していることが分かりました。
オブジェクトバイアスの尺度を提案し、オブジェクトバイアスが属性などの他の概念に悪影響を及ぼさないことを示す。
- 参考スコア(独自算出の注目度): 27.618704505738425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive vision-language models like CLIP have gained popularity for their versatile applicable learned representations in various downstream tasks. Despite their successes in some tasks, like zero-shot image recognition, they also perform surprisingly poor on other tasks, like attribute detection. Previous work has attributed these challenges to the modality gap, a separation of image and text in the shared representation space, and a bias towards objects over other factors, such as attributes. In this work we investigate both phenomena. We find that only a few embedding dimensions drive the modality gap. Further, we propose a measure for object bias and find that object bias does not lead to worse performance on other concepts, such as attributes. But what leads to the emergence of the modality gap and object bias? To answer this question we carefully designed an experimental setting which allows us to control the amount of shared information between the modalities. This revealed that the driving factor behind both, the modality gap and the object bias, is the information imbalance between images and captions.
- Abstract(参考訳): CLIPのような対照的な視覚言語モデルは、様々な下流タスクで多用途に適用可能な学習表現として人気を集めている。
ゼロショット画像認識など、いくつかのタスクで成功しているにもかかわらず、属性検出など他のタスクでは驚くほど貧弱である。
これまでの研究では、これらの課題は、モダリティギャップ、共有表現空間における画像とテキストの分離、属性などの他の要因に対するオブジェクトに対するバイアスなどによるものだった。
本研究は両現象について考察する。
数個の埋め込み次元だけがモダリティギャップを駆動していることが分かりました。
さらに,対象バイアスの尺度を提案し,対象バイアスが属性などの他の概念に悪影響を及ぼさないことを示す。
しかし、モダリティギャップとオブジェクトバイアスの出現につながるものは何か?
この質問に答えるために,モーダル間の共有情報の量を制御する実験的な設定を慎重に設計した。
その結果、モダリティギャップとオブジェクトバイアスの両方の背景にある要因は、画像とキャプション間の情報不均衡であることがわかった。
関連論文リスト
- Is This the Subspace You Are Looking for? An Interpretability Illusion
for Subspace Activation Patching [47.05588106164043]
機械的解釈可能性(Mechanistic Interpretability)は、特定の、解釈可能な特徴の観点からモデル行動を理解することを目的としている。
最近の研究は、モデル行動を操作し、その背後にある特徴を与えられた部分空間とみなす方法として、サブスペース介入を探求している。
これらの2つの目的が多様であることを示し、潜在的に説明可能性という幻想的な感覚に繋がる可能性があることを実証する。
論文 参考訳(メタデータ) (2023-11-28T18:32:19Z) - Identifying Linearly-Mixed Causal Representations from Multi-Node Interventions [14.586959818386765]
因果表現学習において、複数の変数を1つの環境内の介入によって対象とすることができる最初の識別可能性結果を提供する。
我々のアプローチは、環境全体にわたる介入のカバレッジと多様性に関する一般的な仮定に基づいている。
理論的貢献に加えて,多ノード干渉データから因果表現を学習するための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-05T16:05:00Z) - Joint Salient Object Detection and Camouflaged Object Detection via
Uncertainty-aware Learning [47.253370009231645]
本稿では,SOD と Camouflaged Object Detection (COD) の矛盾する情報を探るため,不確実性を考慮した学習パイプラインを提案する。
我々の解決策は、最先端の性能と情報的不確実性の推定の両方につながる。
論文 参考訳(メタデータ) (2023-07-10T15:49:37Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Chairs Can be Stood on: Overcoming Object Bias in Human-Object
Interaction Detection [22.3445174577181]
画像中のHuman-Object Interaction(HOI)は、高レベルの視覚的理解に向けた重要なステップである。
本稿では,検出対象下でのインタラクションの分散を再バランスする,新しいプラグアンドプレイ型オブジェクト指向デバイアスメモリ(ODM)手法を提案する。
提案手法は,特に各オブジェクト下での稀な相互作用において,ベースラインよりも一貫した,重要な改善をもたらす。
論文 参考訳(メタデータ) (2022-07-06T01:55:28Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。