論文の概要: Improving Multimodal Datasets with Image Captioning
- arxiv url: http://arxiv.org/abs/2307.10350v2
- Date: Thu, 26 Oct 2023 03:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:19:59.496791
- Title: Improving Multimodal Datasets with Image Captioning
- Title(参考訳): 画像キャプションによるマルチモーダルデータセットの改善
- Authors: Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig
Schmidt
- Abstract要約: 生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
- 参考スコア(独自算出の注目度): 65.74736570293622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive web datasets play a key role in the success of large vision-language
models like CLIP and Flamingo. However, the raw web data is noisy, and existing
filtering methods to reduce noise often come at the expense of data diversity.
Our work focuses on caption quality as one major source of noise, and studies
how generated captions can increase the utility of web-scraped datapoints with
nondescript text. Through exploring different mixing strategies for raw and
generated captions, we outperform the best filtering method proposed by the
DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a
candidate pool of 128M image-text pairs. Our best approach is also 2x better at
Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an
effective source of text supervision. In experimenting with different image
captioning models, we also demonstrate that the performance of a model on
standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable
indicator of the utility of the captions it generates for multimodal training.
Finally, our experiments with using generated captions at DataComp's large
scale (1.28B image-text pairs) offer insights into the limitations of synthetic
text, as well as the importance of image curation with increasing training data
quantity. The synthetic captions used in our experiments are now available on
HuggingFace.
- Abstract(参考訳): 大規模なWebデータセットは、CLIPやFlamingoといった大規模なビジョン言語モデルの成功に重要な役割を果たしている。
しかし、生のWebデータはノイズが多く、ノイズを減らすための既存のフィルタリング手法は、しばしばデータの多様性を犠牲にしている。
本研究は,キャプション品質を主要なノイズ源として位置づけ,生成キャプションが非記述テキストによる web 階層データポイントの有用性をいかに高めるかを検討する。
生のキャプションと生成したキャプションの異なる混合戦略を探求することで,128万のイメージテキストペアの候補プールを与えられた場合,datacompベンチマークで提案する最良のフィルタリング手法を,imagenetで2%,38タスクで平均で4%上回った。
FlickrとMS-COCOの検索も2倍改善しています。
次に、合成キャプションをテキスト管理の効果的な源とするものを分析する。
異なる画像キャプションモデルを用いた実験では、標準画像キャプションベンチマーク(例えば、NoCaps CIDEr)におけるモデルの性能が、マルチモーダルトレーニングのためのキャプションの有用性の信頼性を示す指標ではないことも示している。
最後に,DataComp の大規模キャプション (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界,およびトレーニングデータ量の増加に伴う画像キュレーションの重要性について考察した。
私たちの実験で使われている合成キャプションはHuggingFaceで利用可能です。
関連論文リスト
- Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - CapsFusion: Rethinking Image-Text Data at Scale [32.334143749598766]
本稿では,ウェブベースの画像テキストペアと合成キャプションの両方から情報を統合・洗練するためのCapsFusionを提案する。
実験の結果,CapsFusionキャプションはモデル性能において既存のキャプションよりも圧倒的に優れていた。
論文 参考訳(メタデータ) (2023-10-31T15:31:39Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Noise-aware Learning from Web-crawled Image-Text Data for Image
Captioning [6.101765622702223]
ノイズ対応キャプション(NoC)フレームワークは、ノイズの影響を受けずに、Webクローリングされたデータ全体から豊富な知識を学習する。
これは、画像テキストペアのアライメントレベルを制御信号として学習したアライメントレベル制御可能なキャプタによって実現される。
ノイズ処理におけるフレームワークの有効性を詳細に分析した。
論文 参考訳(メタデータ) (2022-12-27T17:33:40Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。