論文の概要: From Pixels to Prose: A Large Dataset of Dense Image Captions
- arxiv url: http://arxiv.org/abs/2406.10328v1
- Date: Fri, 14 Jun 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:52:09.680551
- Title: From Pixels to Prose: A Large Dataset of Dense Image Captions
- Title(参考訳): Pixelsからプロセプション:大容量の高解像度画像キャプチャー
- Authors: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein,
- Abstract要約: PixelProseは、合成されたキャプション16万あまりの包括的データセットである。
データ整合性を確保するため、問題のあるコンテンツのデータセットを厳格に分析します。
また、透かしの存在や美的スコアなどの貴重なメタデータも提供します。
- 参考スコア(独自算出の注目度): 76.97493750144812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large vision-language models requires extensive, high-quality image-text pairs. Existing web-scraped datasets, however, are noisy and lack detailed image descriptions. To bridge this gap, we introduce PixelProse, a comprehensive dataset of over 16M (million) synthetically generated captions, leveraging cutting-edge vision-language models for detailed and accurate descriptions. To ensure data integrity, we rigorously analyze our dataset for problematic content, including child sexual abuse material (CSAM), personally identifiable information (PII), and toxicity. We also provide valuable metadata such as watermark presence and aesthetic scores, aiding in further dataset filtering. We hope PixelProse will be a valuable resource for future vision-language research. PixelProse is available at https://huggingface.co/datasets/tomg-group-umd/pixelprose
- Abstract(参考訳): 大きな視覚言語モデルを訓練するには、広範囲で高品質な画像テキストペアが必要である。
しかし、既存のWebスクラッドデータセットはノイズが多く、詳細な画像記述がない。
このギャップを埋めるために、私たちはPixelProseを紹介します。これは1600万(数百万)以上の合成キャプションの包括的なデータセットで、最先端の視覚言語モデルを利用して詳細かつ正確な記述を行います。
データ整合性を確保するため、児童性虐待材料(CSAM)、個人識別情報(PII)、毒性など、問題のあるコンテンツのデータセットを厳格に分析する。
また、ウォーターマークの存在や美的スコアなどの貴重なメタデータも提供し、さらなるデータセットのフィルタリングを支援します。
PixelProseが将来のビジョン言語研究の貴重なリソースになることを願っている。
PixelProseはhttps://huggingface.co/datasets/tomg-group-umd/pixelproseで利用可能である。
関連論文リスト
- OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - A Dense Material Segmentation Dataset for Indoor and Outdoor Scene
Parsing [1.7404865362620798]
室内および屋外の画像44,560枚に320万個の高密度セグメントの大規模データセットを提案する。
私たちのデータには、より多様なシーン、オブジェクト、視点、材料が含まれています。
我々は、データに基づいてトレーニングされたモデルが、データセットと視点をまたいだ最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:15:41Z) - RedCaps: web-curated image-text data created by the people, for the
people [12.58157541985447]
Redditから収集された1200万のイメージテキストペアの大規模なデータセットであるRedCapsを紹介します。
Redditの画像やキャプションは、さまざまなオブジェクトやシーンを描いて記述している。
我々は、RedCapsで訓練されたキャプションモデルが、人間に好まれるリッチで多様なキャプションを生成し、多くの下流タスクに伝達する視覚表現を学ぶことを示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:34Z) - Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文 参考訳(メタデータ) (2021-10-05T11:47:27Z) - Understanding Mobile GUI: from Pixel-Words to Screen-Sentences [48.97215653702567]
モバイルGUI理解アーキテクチャを提案する:Pixel-Words to Screen-Sentence (PW2SS)
Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されており、スクリーンショット全体で視覚的に一貫性があり、セマンティックにクリアである。
トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。
論文 参考訳(メタデータ) (2021-05-25T13:45:54Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。