論文の概要: Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL
Models
- arxiv url: http://arxiv.org/abs/2305.19595v1
- Date: Wed, 31 May 2023 06:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:09:02.939190
- Title: Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL
Models
- Title(参考訳): Dense and Aligned Captions (DAC)はVLモデルにおける合成推論を促進する
- Authors: Sivan Doveh, Assaf Arbelle, Sivan Harary, Amit Alfassy, Roei Herzig,
Donghyun Kim, Raja Giryes, Rogerio Feris, Rameswar Panda, Shimon Ullman,
Leonid Karlinsky
- Abstract要約: 視覚と言語(VL)モデルは、画像とテキストの表現空間を整列する効果的な方法を提供する。
一般的なVLモデルで学習されたアライメントされた画像テキスト空間は、いまだにいわゆるオブジェクトバイアスに悩まされている」。
- 参考スコア(独自算出の注目度): 44.882589542346075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and Language (VL) models offer an effective method for aligning
representation spaces of images and text, leading to numerous applications such
as cross-modal retrieval, visual question answering, captioning, and more.
However, the aligned image-text spaces learned by all the popular VL models are
still suffering from the so-called `object bias' - their representations behave
as `bags of nouns', mostly ignoring or downsizing the attributes, relations,
and states of objects described/appearing in texts/images. Although some great
attempts at fixing these `compositional reasoning' issues were proposed in the
recent literature, the problem is still far from being solved. In this paper,
we uncover two factors limiting the VL models' compositional reasoning
performance. These two factors are properties of the paired VL dataset used for
finetuning and pre-training the VL model: (i) the caption quality, or in other
words `image-alignment', of the texts; and (ii) the `density' of the captions
in the sense of mentioning all the details appearing on the image. We propose a
fine-tuning approach for automatically treating these factors leveraging a
standard VL dataset (CC3M). Applied to CLIP, we demonstrate its significant
compositional reasoning performance increase of up to $\sim27\%$ over the base
model, up to $\sim20\%$ over the strongest baseline, and by $6.7\%$ on average.
- Abstract(参考訳): 視覚と言語(VL)モデルは、画像とテキストの表現空間を整列させる効果的な方法を提供し、クロスモーダル検索、視覚的質問応答、キャプションなど多くの応用をもたらす。
しかし、人気のあるvlモデルで学習された整列した画像テキスト空間は、いわゆる「オブジェクトバイアス」に苦しんでおり、それらの表現は「名詞の袋」として振る舞う。
これらの「仮定的推論」の問題を修正する試みが最近の文献でいくつか提案されているが、まだ解決には至っていない。
本稿では,VLモデルの合成推論性能を制限する2つの要因を明らかにする。
これらの2つの要因は、VLモデルの微調整と事前学習に使用されるペアVLデータセットの特性である。
(i)本文の字幕品質又は言い換えれば「画像表示」であって、
(ii)画像に現れる細部を全て言及する意味での字幕の「密度」
本稿では,標準VLデータセット(CC3M)を利用して,これらの因子を自動的に扱うための微調整手法を提案する。
CLIPに適用すると、ベースモデルで最大$\sim27\%、最強のベースラインで最大$\sim20\%、平均6.7\%という、構成的推論のパフォーマンスが大幅に向上することを示す。
関連論文リスト
- Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - 3VL: using Trees to teach Vision & Language models compositional
concepts [45.718319397947056]
本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。
テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。
また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。