論文の概要: CLIP Won't Learn Object-Attribute Binding from Natural Data and Here is Why
- arxiv url: http://arxiv.org/abs/2507.07985v1
- Date: Thu, 10 Jul 2025 17:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.531761
- Title: CLIP Won't Learn Object-Attribute Binding from Natural Data and Here is Why
- Title(参考訳): CLIPは自然データからオブジェクト属性バインディングを学習しない
- Authors: Bijay Gurung, David T. Hoffmann, Thomas Brox,
- Abstract要約: 低属性密度,不完全字幕,サリエンシバイアスが結合性能に有害な影響を及ぼすことを示す。
バッチサイズをスケールアップする、すなわち、より強い負を暗黙的に追加したり、あるいはハード負を明示的に生成することで、CLIPは信頼性のあるバインディングを学習できない、ということが分かりました。
- 参考スコア(独自算出の注目度): 28.410388568106587
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive vision-language models like CLIP are used for a large variety of applications, such as zero-shot classification or as vision encoder for multi-modal models. Despite their popularity, their representations show major limitations. For instance, CLIP models learn bag-of-words representations and, as a consequence, fail to distinguish whether an image is of "a yellow submarine and a blue bus" or "a blue submarine and a yellow bus". Previous attempts to fix this issue added hard negatives during training or modified the architecture, but failed to resolve the problem in its entirety. We suspect that the missing insights to solve the binding problem for CLIP are hidden in the arguably most important part of learning algorithms: the data. In this work, we fill this gap by rigorously identifying the influence of data properties on CLIP's ability to learn binding using a synthetic dataset. We find that common properties of natural data such as low attribute density, incomplete captions, and the saliency bias, a tendency of human captioners to describe the object that is "most salient" to them have a detrimental effect on binding performance. In contrast to common belief, we find that neither scaling the batch size, i.e., implicitly adding more hard negatives, nor explicitly creating hard negatives enables CLIP to learn reliable binding. Only when the data expresses our identified data properties CLIP learns almost perfect binding.
- Abstract(参考訳): CLIPのような対照的な視覚言語モデルは、ゼロショット分類やマルチモーダルモデルのためのビジョンエンコーダなど、様々な用途に使用されている。
彼らの人気にもかかわらず、彼らの代表は大きな限界を示している。
例えば、CLIPモデルは単語の袋の表現を学び、その結果、画像が「黄色い潜水艦と青いバス」なのか「青い潜水艦と黄色いバス」なのかを区別できない。
この問題を修正しようとする以前の試みは、トレーニング中やアーキテクチャの変更時に強烈なネガティブを生じさせたが、全体的な解決には至らなかった。
私たちは、CLIPのバインディング問題を解決するための欠落した洞察が、学習アルゴリズムの最も重要な部分であるデータの中に隠されているのではないかと疑っている。
本研究では,このギャップを,合成データセットを用いてバインディングを学習するCLIPの能力に対するデータ特性の影響を厳格に同定することによって埋める。
低属性密度,不完全字幕,サリエンシバイアスなどの自然データの共通特性は,ヒトのキャプタが「最も顕著」な対象を記述する傾向が,結合性能に有害な影響があることを見出した。
一般的な信念とは対照的に、バッチサイズ、すなわち暗黙的にハードネガティブを追加することも、ハードネガティブを明示的に生成することも、CLIPが信頼できるバインディングを学習することを可能にすることも分かっています。
データが識別されたデータプロパティを表現するときだけ、CLIPは、ほぼ完璧なバインディングを学びます。
関連論文リスト
- Is CLIP ideal? No. Can we fix it? Yes! [30.71718499767702]
Contrastive Language-Image Pre-Trainingは、よく組織化されたセマンティクスでマルチモーダルな潜在空間を学習する一般的な方法である。
広い範囲のアプリケーションにもかかわらず、CLIPの潜伏空間は複雑な視覚とテキストの相互作用を扱うのに失敗することが知られている。
本稿では,CLIP様モデルの原理的,解釈可能な評価法として,コサイン類似度マップ(DCSM)を提案する。
論文 参考訳(メタデータ) (2025-03-10T23:42:04Z) - CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally [16.067527644904434]
近年の研究では、CLIPの合成概念を効果的に表現する能力に疑問が呈されている。
線形属性結合CLIP(LABCLIP)を提案し,CLIPの構成的理解を改善する。
論文 参考訳(メタデータ) (2025-02-05T19:28:57Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。
提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Affinity Uncertainty-based Hard Negative Mining in Graph Contrastive
Learning [27.728860211993368]
強い負のマイニングは、多種多様なデータ型に対する自己教師付きコントラスト学習(CL)の強化に有効である。
本稿では,集合親和性情報に基づく識別モデルを構築し,グラフデータ中の強負を抽出する手法を提案する。
10個のグラフデータセットに対する実験により、我々の手法はグラフとノードの分類タスクにおいて、異なる最先端(SOTA)のGCLメソッドを一貫して拡張することを示した。
論文 参考訳(メタデータ) (2023-01-31T00:18:03Z) - Triplet Contrastive Learning for Unsupervised Vehicle Re-identification [55.445358749042384]
部分的特徴学習は、車両の再識別におけるセマンティック理解にとって重要な技術である。
本稿では,クラスタ機能を活用したTCL(Triplet Contrastive Learning framework)を提案する。
論文 参考訳(メタデータ) (2023-01-23T15:52:12Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Unifying Graph Contrastive Learning with Flexible Contextual Scopes [57.86762576319638]
フレキシブルコンテキストスコープを用いたグラフコントラスト学習(略してUGCL)という自己教師型学習手法を提案する。
本アルゴリズムは,隣接行列のパワーを制御し,コンテキストスコープによるフレキシブルな文脈表現を構築する。
局所的スコープと文脈的スコープの両方の表現に基づいて、distLはグラフ表現学習のための非常に単純な対照的な損失関数を最適化する。
論文 参考訳(メタデータ) (2022-10-17T07:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。