論文の概要: Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data
- arxiv url: http://arxiv.org/abs/2312.06726v4
- Date: Wed, 4 Sep 2024 09:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 04:21:21.996568
- Title: Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data
- Title(参考訳): Filter & Align: 画像テキストデータのキュレーションに人間の知識を活用する
- Authors: Lei Zhang, Fangxun Shu, Tianyang Liu, Sucheng Ren, Hao Jiang, Cihang Xie,
- Abstract要約: 本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
- 参考スコア(独自算出の注目度): 31.507451966555383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing availability of image-text pairs has largely fueled the rapid advancement in vision-language foundation models. However, the vast scale of these datasets inevitably introduces significant variability in data quality, which can adversely affect the model performance. This highlights the critical role of data filtering, not only to enhance training efficiency but also to improve overall data quality. Existing methods typically rely on metrics such as CLIP Score and BLIP Score, which are derived from pre-trained models. However, these models are often trained on uncurated, noisy datasets, which can perpetuate errors and misalignments in the filtered dataset. We present a novel algorithm that incorporates human knowledge on image-text alignment to guide filtering vast corpus of web-crawled image-text datasets into a compact and high-quality form. To systemically capture human preferences on image-text alignments, we collect a diverse image-text dataset where each image is associated with multiple captions from various sources, and establish a comprehensive set of both subjective and objective criteria for critically guiding the alignment assessment from labelers. Additionally, we train a reward model on these human-preference annotations to internalize the nuanced human understanding of image-text alignment. The resulting reward model thus can act as a human-like referee to filter image-text pairs. Extensive experiments demonstrate that we can maintain, sometimes even improve, model performance while compressing the image-text datasets up to ~90%. An impressive example is that, by aggressively reducing the total training sample from 130M to only 15.5M, our BLIP-B/16 models consistently show an average improvement of 2.9% on retrieval tasks and 11.5% on captioning tasks compared to full-size-dataset counterparts.
- Abstract(参考訳): 画像テキストペアの利用可能化が進み、視覚言語基盤モデルの急速な進歩に大きく寄与した。
しかし、これらのデータセットの大規模化は、必然的にデータ品質の大幅な変動をもたらし、モデルの性能に悪影響を及ぼす可能性がある。
これは、トレーニング効率を高めるだけでなく、全体的なデータ品質を改善するために、データフィルタリングの重要な役割を強調します。
既存のメソッドは通常、事前訓練されたモデルから派生したCLIP ScoreやBLIP Scoreといったメトリクスに依存している。
しかしながら、これらのモデルは、フィルタされたデータセットのエラーやミスアライメントを永続することができる、未修正のノイズの多いデータセットでトレーニングされることが多い。
本稿では,画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
画像テキストアライメントにおける人間の嗜好を体系的に把握するために,各画像が様々なソースからの複数のキャプションに関連付けられている多様な画像テキストデータセットを収集し,ラベルからアライメントアライメントアライメントを批判的に導くための主観的基準と客観的基準の包括的セットを確立する。
さらに、画像テキストのアライメントに関する微妙な人間の理解を内部化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
結果として得られる報酬モデルは、画像とテキストのペアをフィルタリングする人間のようなレフェリーとして機能する。
大規模な実験では、画像テキストデータセットを最大90%圧縮しながら、パフォーマンスを維持、時には改善できることを示した。
印象的な例は、総トレーニングサンプルを130Mから15.5Mに積極的に削減することで、私たちのBLIP-B/16モデルは、フルサイズのデータセットと比較して、検索タスクが2.9%、キャプションタスクが11.5%の平均的な改善を常に示していることである。
関連論文リスト
- OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。