論文の概要: Text encoders are performance bottlenecks in contrastive vision-language
models
- arxiv url: http://arxiv.org/abs/2305.14897v1
- Date: Wed, 24 May 2023 08:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:03:51.948281
- Title: Text encoders are performance bottlenecks in contrastive vision-language
models
- Title(参考訳): テキストエンコーダは、コントラスト視覚言語モデルにおけるパフォーマンスボトルネックである
- Authors: Amita Kamath, Jack Hessel, Kai-Wei Chang
- Abstract要約: 単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、オブジェクトの関係、属性オブジェクトの関連、カウント、否定に不足している。
その結果、コントラッシブ・ビジョン+言語モデルにおける構成因子をモデル化するために、テキストのみの回復性は必要である(しかし十分ではない)ことが示唆された。
- 参考スコア(独自算出の注目度): 71.17159050994321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performant vision-language (VL) models like CLIP represent captions using a
single vector. How much information about language is lost in this bottleneck?
We first curate CompPrompts, a set of increasingly compositional image captions
that VL models should be able to capture (e.g., single object, to
object+property, to multiple interacting objects). Then, we train text-only
recovery probes that aim to reconstruct captions from single-vector text
representations produced by several VL models. This approach doesn't require
images, allowing us to test on a broader range of scenes compared to prior
work. We find that: 1) CLIP's text encoder falls short on object relationships,
attribute-object association, counting, and negations; 2) some text encoders
work significantly better than others; and 3) text-only recovery performance
predicts multi-modal matching performance on ControlledImCaps: a new evaluation
benchmark we collect+release consisting of fine-grained compositional
images+captions. Specifically -- our results suggest text-only recoverability
is a necessary (but not sufficient) condition for modeling compositional
factors in contrastive vision+language models. We release data+code.
- Abstract(参考訳): CLIPのような高性能視覚言語(VL)モデルは、単一のベクトルを使ってキャプションを表現する。
このボトルネックで、言語に関する情報はどの程度失われていますか?
最初にCompPromptsをキュレートします。これは、VLモデルがキャプチャできるべき構成的なイメージキャプションのセットです(例えば、シングルオブジェクト、オブジェクト+プロパティ、複数の対話オブジェクト)。
そして,複数のVLモデルによって生成された単一ベクトルテキスト表現からキャプションを再構築することを目的とした,テキストのみの回復プローブを訓練する。
このアプローチではイメージを必要とせず、以前の作業よりも広い範囲のシーンでテストすることができます。
私たちはそれを見つけました
1) CLIP のテキストエンコーダは,オブジェクト関係,属性オブジェクト関連,カウント,否定に不足する。
2)一部のテキストエンコーダは,他よりも著しく優れている。
3) テキストのみのリカバリ性能は,制御ImCaps上でのマルチモーダルマッチング性能を予測する。
具体的には、コントラストビジョン+言語モデルの合成因子のモデル化には、テキストのみの復元性が必須(しかし不十分)条件であることを示唆している。
データ+コードをリリースします。
関連論文リスト
- ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL
Models [45.36305540697616]
視覚と言語(VL)モデルは、画像とテキストの表現空間を整列する効果的な方法を提供する。
一般的なVLモデルで学習されたアライメントされた画像テキスト空間は、いまだにいわゆるオブジェクトバイアスに悩まされている」。
論文 参考訳(メタデータ) (2023-05-31T06:36:41Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - ComCLIP: Training-Free Compositional Image and Text Matching [19.373706257771673]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。
我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。
ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文 参考訳(メタデータ) (2022-11-25T01:37:48Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。