論文の概要: Compress & Align: Curating Image-Text Data with Human Knowledge
- arxiv url: http://arxiv.org/abs/2312.06726v2
- Date: Wed, 13 Dec 2023 04:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 11:34:09.031126
- Title: Compress & Align: Curating Image-Text Data with Human Knowledge
- Title(参考訳): Compress & Align: 人間の知識による画像テキストデータのキュレーション
- Authors: Lei Zhang, Fangxun Shu, Sucheng Ren, Bingchen Zhao, Hao Jiang, Cihang
Xie
- Abstract要約: 本稿では,ウェブクローリングされた画像テキストデータセットをコンパクトで高品質な形式に圧縮するための,人間の知識に根ざした新しいアルゴリズムを提案する。
注釈付きデータセットの報酬モデルは、画像とテキストのアライメントに関する微妙な人間の理解を内包する。
実験では、画像テキストデータセットを最大90%圧縮することで、モデルのパフォーマンスを確保(あるいは改善)できることを示した。
- 参考スコア(独自算出の注目度): 36.34714164235438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive growth of image-text data through web crawling inherently
presents the challenge of variability in data quality. This paper introduces a
novel algorithm, rooted in human knowledge, to compress this vast corpus of
web-crawled image-text datasets to a compact and high-quality form. Our method
unfolds in three major steps. First, we collect an image-text dataset, wherein
each image is associated with multiple captions sourced from diverse origins.
Then, to systemically capture human preferences regarding the best caption
paired with each image, we establish a comprehensive set of both subjective and
objective criteria for critically guiding the alignment assessment from
labelers. Lastly, we train a reward model on the annotated dataset to
internalize the nuanced human understanding of image-text alignment. The
resulting reward model thus can act as a human-like referee to filter
misaligned/low-quality image-text pairs. Extensive experiments demonstrate that
we are able to secure (or even improve) model performance by compressing the
image-text datasets up to ~90%. An impressive example is that, by aggressively
reducing the total training sample from 130M to 15.5M (e.g., ~9x smaller), our
BLIP-B/16 models still consistently show superior performance compared with the
full-size-dataset counterpart on image-text retrieval (Flickr30K, COCO) by
~2.5% in Recall@1, and on image-captioning (Nocaps, COCO) by ~10.0% in CIDEr
and ~2.7% in SPICE.
- Abstract(参考訳): ウェブクローリングによる画像テキストデータの膨大な増加は、本質的にデータ品質の変動性の課題を示している。
本稿では,人間の知識に根ざした新しいアルゴリズムを導入し,この膨大な画像テキストデータセットのコーパスを,コンパクトで高品質な形式に圧縮する。
我々の方法は3つの大きなステップで展開する。
まず、画像テキストデータセットを収集し、各画像に多様な起源から派生した複数のキャプションを関連付ける。
そして,各画像と組み合わせた最適なキャプションに関する人間の嗜好を体系的に把握するために,ラベルからアライメント評価を批判的に導くための主観的基準と客観的基準の包括的セットを確立する。
最後に、アノテートデータセット上の報酬モデルをトレーニングし、画像テキストアライメントに関する人間の微妙な理解を内部化する。
結果として得られる報酬モデルは、不整合/低品質の画像テキストペアをフィルタする人間のようなレフェリーとして機能する。
広範な実験によって、画像テキストデータセットを90%まで圧縮することで、モデルパフォーマンスを確保(あるいは改善)できることが示されています。
例えば、我々のBLIP-B/16モデルは、130Mから15.5Mに積極的に縮小することで、画像テキスト検索(Flickr30K、COCO)で約2.5%、CIDErで約10.0%、SPICEで約2.7%のフルサイズデータセットよりも優れたパフォーマンスを示している。
関連論文リスト
- Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。