論文の概要: CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally
- arxiv url: http://arxiv.org/abs/2502.03566v1
- Date: Wed, 05 Feb 2025 19:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:36.003427
- Title: CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally
- Title(参考訳): CLIPはBag-of-Wordsモデルに似ているが、Uni-modallyではない
- Authors: Darina Koishigarina, Arnas Uselis, Seong Joon Oh,
- Abstract要約: 近年の研究では、CLIPの合成概念を効果的に表現する能力に疑問が呈されている。
特に、CLIPは、画像やテキストに複数のオブジェクトが存在する場合、対応するオブジェクトに属性を正しくバインドするのに苦労している。
本稿では,コサイン類似性を計算する前に,テキスト埋め込みに線形変換を適用した線形属性結合CLIP(LABCLIP)を提案する。
- 参考スコア(独自算出の注目度): 16.067527644904434
- License:
- Abstract: CLIP (Contrastive Language-Image Pretraining) has become a popular choice for various downstream tasks. However, recent studies have questioned its ability to represent compositional concepts effectively. These works suggest that CLIP often acts like a bag-of-words (BoW) model, interpreting images and text as sets of individual concepts without grasping the structural relationships. In particular, CLIP struggles to correctly bind attributes to their corresponding objects when multiple objects are present in an image or text. In this work, we investigate why CLIP exhibits this BoW-like behavior. We find that the correct attribute-object binding information is already present in individual text and image modalities. Instead, the issue lies in the cross-modal alignment, which relies on cosine similarity. To address this, we propose Linear Attribute Binding CLIP or LABCLIP. It applies a linear transformation to text embeddings before computing cosine similarity. This approach significantly improves CLIP's ability to bind attributes to correct objects, thereby enhancing its compositional understanding.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pretraining)は、さまざまな下流タスクで一般的な選択肢となっている。
しかし、近年の研究では、構成概念を効果的に表現する能力に疑問が呈されている。
これらの研究は、CLIPがしばしば、構造的関係を把握せずに、イメージとテキストを個々の概念の集合として解釈する、backer-of-words(BoW)モデルのように振る舞うことを示唆している。
特に、CLIPは、画像やテキストに複数のオブジェクトが存在する場合、対応するオブジェクトに属性を正しくバインドするのに苦労している。
本稿では,なぜCLIPがBoW様の挙動を示すのかを考察する。
属性オブジェクトの正しいバインディング情報はすでに個々のテキストや画像のモダリティに存在しています。
その代わり、問題はコサインの類似性に依存するクロスモーダルアライメントにある。
そこで本稿では,Linear Attribute Binding CLIP あるいは LABCLIPを提案する。
これはコサイン類似性を計算する前に、テキスト埋め込みに線形変換を適用する。
このアプローチはCLIPの属性を正しいオブジェクトにバインドする能力を大幅に改善する。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning [46.25534556546322]
そこで本稿では,イメージ・アンカー関係から画像・ターゲット関係に遷移して予測を行うアンカーとしてオープンセマンティクスを抽出することを提案する。
本手法は, 数ショットの分類設定を考慮し, 従来の最先端技術に対して良好に機能する。
論文 参考訳(メタデータ) (2024-06-17T06:28:58Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - PerceptionCLIP: Visual Classification by Inferring and Conditioning on Contexts [33.109305627550405]
本稿では,人間の視覚知覚過程からインスピレーションを得る。
トレーニング不要で2段階のゼロショット分類手法であるPerceptionCLIPを提案する。
実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,相互運用性を実現することがわかった。
論文 参考訳(メタデータ) (2023-08-02T17:57:25Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。