論文の概要: ComCLIP: Training-Free Compositional Image and Text Matching
- arxiv url: http://arxiv.org/abs/2211.13854v2
- Date: Fri, 1 Sep 2023 05:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 17:20:13.145158
- Title: ComCLIP: Training-Free Compositional Image and Text Matching
- Title(参考訳): ComCLIP: 学習不要なコンポジションイメージとテキストマッチング
- Authors: Kenan Jiang, Xuehai He, Ruize Xu, Xin Eric Wang
- Abstract要約: コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。
我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。
ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
- 参考スコア(独自算出の注目度): 21.16438228904759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) has demonstrated great
zero-shot performance for matching images and text. However, it is still
challenging to adapt vision-lanaguage pretrained models like CLIP to
compositional image and text matching -- a more challenging image and text
matching task requiring the model understanding of compositional word concepts
and visual components. Towards better compositional generalization in zero-shot
image and text matching, in this paper, we study the problem from a causal
perspective: the erroneous semantics of individual entities are essentially
confounders that cause the matching failure. Therefore, we propose a novel
\textbf{\textit{training-free}} compositional CLIP model (ComCLIP). ComCLIP
disentangles input images into subjects, objects, and action sub-images and
composes CLIP's vision encoder and text encoder to perform evolving matching
over compositional text embedding and sub-image embeddings. In this way,
ComCLIP can mitigate spurious correlations introduced by the pretrained CLIP
models and dynamically evaluate the importance of each component. Experiments
on four compositional image-text matching datasets: SVO, ComVG, Winoground, and
VL-checklist, and two general image-text retrieval datasets: Flick30K, and
MSCOCO demonstrate the effectiveness of our plug-and-play method, which boosts
the \textbf{\textit{zero-shot}} inference ability of CLIP, SLIP, and BLIP2 even
without further training or fine-tuning.
- Abstract(参考訳): Contrastive Language- Image Pretraining (CLIP)は画像とテキストのマッチングに優れたゼロショット性能を示した。
しかし、クリップから合成画像やテキストマッチングへの事前学習された視覚言語モデルの適用は依然として困難であり、合成語の概念や視覚コンポーネントのモデル理解を必要とする、より困難な画像とテキストマッチングタスクである。
本稿では,ゼロショット画像とテキストマッチングにおける合成汎化の改善に向けて,その問題を因果的観点から検討する。
そこで本研究では,新しい合成クリップモデルである\textbf{\textit{training-free}} を提案する。
comclipは入力画像を被写体、オブジェクト、アクションサブイメージに分割し、クリップの視覚エンコーダとテキストエンコーダを合成し、合成テキストの埋め込みとサブイメージの埋め込みで進化するマッチングを実行する。
このように、ComCLIPは、事前訓練されたCLIPモデルによって導入された素早い相関を緩和し、各コンポーネントの重要性を動的に評価することができる。
svo、comvg、winoground、vl-checklistの4つの合成画像テキストマッチングデータセットと、flick30kとmscocoの2つの一般的な画像テキスト検索データセットの実験は、更なるトレーニングや微調整なしにクリップ、スリップ、blip2の推論能力を向上させるプラグイン・アンド・プレイ法の有効性を実証している。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。