論文の概要: Compress & Align: Curating Image-Text Data with Human Knowledge
- arxiv url: http://arxiv.org/abs/2312.06726v2
- Date: Wed, 13 Dec 2023 04:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 11:34:09.031126
- Title: Compress & Align: Curating Image-Text Data with Human Knowledge
- Title(参考訳): Compress & Align: 人間の知識による画像テキストデータのキュレーション
- Authors: Lei Zhang, Fangxun Shu, Sucheng Ren, Bingchen Zhao, Hao Jiang, Cihang
Xie
- Abstract要約: 本稿では,ウェブクローリングされた画像テキストデータセットをコンパクトで高品質な形式に圧縮するための,人間の知識に根ざした新しいアルゴリズムを提案する。
注釈付きデータセットの報酬モデルは、画像とテキストのアライメントに関する微妙な人間の理解を内包する。
実験では、画像テキストデータセットを最大90%圧縮することで、モデルのパフォーマンスを確保(あるいは改善)できることを示した。
- 参考スコア(独自算出の注目度): 36.34714164235438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive growth of image-text data through web crawling inherently
presents the challenge of variability in data quality. This paper introduces a
novel algorithm, rooted in human knowledge, to compress this vast corpus of
web-crawled image-text datasets to a compact and high-quality form. Our method
unfolds in three major steps. First, we collect an image-text dataset, wherein
each image is associated with multiple captions sourced from diverse origins.
Then, to systemically capture human preferences regarding the best caption
paired with each image, we establish a comprehensive set of both subjective and
objective criteria for critically guiding the alignment assessment from
labelers. Lastly, we train a reward model on the annotated dataset to
internalize the nuanced human understanding of image-text alignment. The
resulting reward model thus can act as a human-like referee to filter
misaligned/low-quality image-text pairs. Extensive experiments demonstrate that
we are able to secure (or even improve) model performance by compressing the
image-text datasets up to ~90%. An impressive example is that, by aggressively
reducing the total training sample from 130M to 15.5M (e.g., ~9x smaller), our
BLIP-B/16 models still consistently show superior performance compared with the
full-size-dataset counterpart on image-text retrieval (Flickr30K, COCO) by
~2.5% in Recall@1, and on image-captioning (Nocaps, COCO) by ~10.0% in CIDEr
and ~2.7% in SPICE.
- Abstract(参考訳): ウェブクローリングによる画像テキストデータの膨大な増加は、本質的にデータ品質の変動性の課題を示している。
本稿では,人間の知識に根ざした新しいアルゴリズムを導入し,この膨大な画像テキストデータセットのコーパスを,コンパクトで高品質な形式に圧縮する。
我々の方法は3つの大きなステップで展開する。
まず、画像テキストデータセットを収集し、各画像に多様な起源から派生した複数のキャプションを関連付ける。
そして,各画像と組み合わせた最適なキャプションに関する人間の嗜好を体系的に把握するために,ラベルからアライメント評価を批判的に導くための主観的基準と客観的基準の包括的セットを確立する。
最後に、アノテートデータセット上の報酬モデルをトレーニングし、画像テキストアライメントに関する人間の微妙な理解を内部化する。
結果として得られる報酬モデルは、不整合/低品質の画像テキストペアをフィルタする人間のようなレフェリーとして機能する。
広範な実験によって、画像テキストデータセットを90%まで圧縮することで、モデルパフォーマンスを確保(あるいは改善)できることが示されています。
例えば、我々のBLIP-B/16モデルは、130Mから15.5Mに積極的に縮小することで、画像テキスト検索(Flickr30K、COCO)で約2.5%、CIDErで約10.0%、SPICEで約2.7%のフルサイズデータセットよりも優れたパフォーマンスを示している。
関連論文リスト
- Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining [31.176432567292093]
本稿では,画像テキストペアの品質を動的に評価・向上するAdaptive Image-Text Quality Enhancer (AITQE)を提案する。
AITQEは低品質のペアに対してテキスト書き換え機構を採用し、評価能力を向上させるために負のサンプル学習戦略を取り入れている。
論文 参考訳(メタデータ) (2024-10-21T16:32:41Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。