論文の概要: BiVLC: Extending Vision-Language Compositionality Evaluation with Text-to-Image Retrieval
- arxiv url: http://arxiv.org/abs/2406.09952v2
- Date: Mon, 04 Nov 2024 13:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:03.367268
- Title: BiVLC: Extending Vision-Language Compositionality Evaluation with Text-to-Image Retrieval
- Title(参考訳): BiVLC:テキスト・画像検索による視覚・言語構成性の評価
- Authors: Imanol Miranda, Ander Salaberria, Eneko Agirre, Gorka Azkune,
- Abstract要約: 本稿では,Bi Vision-Language Compositionality (BiVLC)データセットを提案する。
BiVLCの新規性は、合成テキストから生成される合成硬質負の画像を追加することである。
人間のアノテーションは、ベンチマークの有効性を保証する不正な例をフィルタリングする。
- 参考スコア(独自算出の注目度): 15.785274903236663
- License:
- Abstract: Existing Vision-Language Compositionality (VLC) benchmarks like SugarCrepe are formulated as image-to-text retrieval problems, where, given an image, the models need to select between the correct textual description and a synthetic hard negative text. In this work, we present the Bidirectional Vision-Language Compositionality (BiVLC) dataset. The novelty of BiVLC is to add a synthetic hard negative image generated from the synthetic text, resulting in two image-to-text retrieval examples (one for each image) and, more importantly, two text-to-image retrieval examples (one for each text). Human annotators filter out ill-formed examples ensuring the validity of the benchmark. The experiments on BiVLC uncover a weakness of current multimodal models, as they perform poorly in the text-to-image direction. In fact, when considering both retrieval directions, the conclusions obtained in previous works change significantly. In addition to the benchmark, we show that a contrastive model trained using synthetic images and texts significantly improves over the base model in SugarCrepe and in BiVLC for both retrieval directions. The gap to human performance in BiVLC confirms that Vision-Language Compositionality is still a challenging problem. BiVLC and code are available at https://imirandam.github.io/BiVLC_project_page.
- Abstract(参考訳): SugarCrepeのような既存のVision-Language Compositionality (VLC)ベンチマークは画像からテキストへの検索問題として定式化されている。
本稿では,双方向視覚言語構成性(BiVLC)データセットについて述べる。
BiVLCの新規性は、合成テキストから生成された合成硬質負の画像を加えることで、2つの画像対テキスト検索例(各画像に対して1つ)と、さらに2つのテキスト対画像検索例(各テキストに対して1つ)を実現することである。
人間のアノテーションは、ベンチマークの有効性を保証する不正な例をフィルタリングする。
BiVLCの実験により、現在のマルチモーダルモデルの弱点が明らかになった。
実際、両方の検索方向を考慮すると、以前の研究で得られた結論は大幅に変化する。
また,SgarCrepe と BiVLC において,合成画像とテキストを用いて訓練したコントラストモデルでは,検索方向と検索方向を比較検討した。
BiVLCにおける人間のパフォーマンスのギャップは、視覚-言語構成性が依然として難しい問題であることを示している。
BiVLCとコードはhttps://imirandam.github.io/BiVLC_project_pageで公開されている。
関連論文リスト
- FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for
Text-to-Image Generation [25.14323931233249]
階層型ビジュアルトランスフォーマとセマンティックレイアウトを取り入れたシーングラフに基づくテキスト・画像拡散モデルを提案する。
提案モデルでは, 実体と関係の特徴ベクトルを抽出し, 拡散モデルに関係付ける。
我々はまた、CNN畳み込み操作に起因する問題に対処できるSwinv2-Unetと呼ばれるSwin-TransformerベースのUNetアーキテクチャも導入した。
論文 参考訳(メタデータ) (2022-10-18T02:50:34Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。