論文の概要: Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2404.07983v1
- Date: Thu, 11 Apr 2024 17:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 12:49:46.946660
- Title: Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning
- Title(参考訳): 1つのトリガー: 対照的な視覚・言語表現学習におけるモダリティギャップ、対象バイアス、情報不均衡について
- Authors: Simon Schrodi, David T. Hoffmann, Max Argus, Volker Fischer, Thomas Brox,
- Abstract要約: 数個の埋め込み次元だけがモダリティギャップを駆動していることが分かりました。
オブジェクトバイアスの尺度を提案し、オブジェクトバイアスが属性などの他の概念に悪影響を及ぼさないことを示す。
- 参考スコア(独自算出の注目度): 27.618704505738425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive vision-language models like CLIP have gained popularity for their versatile applicable learned representations in various downstream tasks. Despite their successes in some tasks, like zero-shot image recognition, they also perform surprisingly poor on other tasks, like attribute detection. Previous work has attributed these challenges to the modality gap, a separation of image and text in the shared representation space, and a bias towards objects over other factors, such as attributes. In this work we investigate both phenomena. We find that only a few embedding dimensions drive the modality gap. Further, we propose a measure for object bias and find that object bias does not lead to worse performance on other concepts, such as attributes. But what leads to the emergence of the modality gap and object bias? To answer this question we carefully designed an experimental setting which allows us to control the amount of shared information between the modalities. This revealed that the driving factor behind both, the modality gap and the object bias, is the information imbalance between images and captions.
- Abstract(参考訳): CLIPのような対照的な視覚言語モデルは、様々な下流タスクで多用途に適用可能な学習表現として人気を集めている。
ゼロショット画像認識など、いくつかのタスクで成功しているにもかかわらず、属性検出など他のタスクでは驚くほど貧弱である。
これまでの研究では、これらの課題は、モダリティギャップ、共有表現空間における画像とテキストの分離、属性などの他の要因に対するオブジェクトに対するバイアスなどによるものだった。
本研究は両現象について考察する。
数個の埋め込み次元だけがモダリティギャップを駆動していることが分かりました。
さらに,対象バイアスの尺度を提案し,対象バイアスが属性などの他の概念に悪影響を及ぼさないことを示す。
しかし、モダリティギャップとオブジェクトバイアスの出現につながるものは何か?
この質問に答えるために,モーダル間の共有情報の量を制御する実験的な設定を慎重に設計した。
その結果、モダリティギャップとオブジェクトバイアスの両方の背景にある要因は、画像とキャプション間の情報不均衡であることがわかった。
関連論文リスト
- Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - The Influences of Color and Shape Features in Visual Contrastive
Learning [0.0]
本稿では,個々の画像特徴(色や形状など)がモデル性能に与える影響について検討する。
実験結果から、教師付き表現と比較して、コントラスト表現は類似した色を持つオブジェクトとクラスタリングする傾向にあることが示された。
論文 参考訳(メタデータ) (2023-01-29T15:10:14Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Intriguing Properties of Contrastive Losses [12.953112189125411]
コントラスト学習の3つの興味深い特性について検討する。
複数のオブジェクトが存在する画像に対して、インスタンスベースのコントラスト学習がうまく学習できるかどうかを検討する。
対照的な学習では、学習しやすい共有機能のいくつかは、競合する機能の集合の学習を抑え、さらに完全に阻止することができる。
論文 参考訳(メタデータ) (2020-11-05T13:19:48Z) - A Self-supervised GAN for Unsupervised Few-shot Object Recognition [39.79912546252623]
本稿では、教師なし数発の物体認識について述べる。
すべてのトレーニングイメージはラベル付けされておらず、テストイメージはクエリと、対象のクラス毎にラベル付きサポートイメージに分割されている。
我々は,バニラGANを2つの損失関数で拡張し,それぞれが自己教師型学習を目的とした。
論文 参考訳(メタデータ) (2020-08-16T19:47:26Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。