論文の概要: OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents
- arxiv url: http://arxiv.org/abs/2306.16527v1
- Date: Wed, 21 Jun 2023 14:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-02 13:06:28.256297
- Title: OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents
- Title(参考訳): OBELISC: インターリーブされた画像テキストドキュメントのオープンなWebスケールフィルタリングデータセット
- Authors: Hugo Lauren\c{c}on, Lucile Saulnier, L\'eo Tronchon, Stas Bekman,
Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander
M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
- Abstract要約: 我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELISCを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
我々は、データセット上に800億のパラメータビジョンと言語モデルをトレーニングし、様々なマルチモーダルベンチマークで競合性能を得る。
- 参考スコア(独自算出の注目度): 123.76208220146168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models trained on natural documents, which interleave images
and text, outperform models trained on image-text pairs on various multimodal
benchmarks that require reasoning over one or multiple images to generate a
text. However, the datasets used to train these models have not been released,
and the collection process has not been fully specified. We introduce the
OBELISC dataset, an open web-scale filtered dataset of interleaved image-text
documents comprising 141 million web pages extracted from Common Crawl, 353
million associated images, and 115 billion text tokens. We describe the dataset
creation process, present comprehensive filtering rules, and provide an
analysis of the dataset's content. To show the viability of OBELISC, we train
an 80 billion parameters vision and language model on the dataset and obtain
competitive performance on various multimodal benchmarks. We release the code
to reproduce the dataset along with the dataset itself.
- Abstract(参考訳): 画像とテキストをインターリーブする自然文書に基づいてトレーニングされた大規模マルチモーダルモデルは、テキストを生成するために1つまたは複数のイメージを推論する必要がある様々なマルチモーダルベンチマークで、画像-テキストペアでトレーニングされたモデルを上回っている。
しかし、これらのモデルのトレーニングに使われるデータセットはリリースされておらず、収集プロセスは完全に特定されていない。
我々は,Common Crawlから抽出された1億1100万のWebページ,3億3300万の関連画像,および1150億のテキストトークンからなる,オープンなWebスケールの画像テキスト文書のフィルタリングデータセットであるOBELISCデータセットを紹介する。
本稿では,データセット作成プロセスを説明し,包括的フィルタリングルールを提示し,データセットの内容の分析を行う。
OBELISCの有効性を示すために,データセット上に800億のパラメータビジョンと言語モデルをトレーニングし,様々なマルチモーダルベンチマーク上での競合性能を得る。
データセット自体と一緒にデータセットを再生するコードをリリースします。
関連論文リスト
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - GLAMI-1M: A Multilingual Image-Text Fashion Dataset [0.0]
GLAMI-1Mは、多言語画像テキスト分類データセットとベンチマークで最大である。
データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。
論文 参考訳(メタデータ) (2022-11-17T13:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。