論文の概要: OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents
- arxiv url: http://arxiv.org/abs/2306.16527v2
- Date: Mon, 21 Aug 2023 09:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 23:14:15.714500
- Title: OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents
- Title(参考訳): OBELICS: インターリーブされた画像テキストドキュメントのオープンなWebスケールフィルタリングデータセット
- Authors: Hugo Lauren\c{c}on, Lucile Saulnier, L\'eo Tronchon, Stas Bekman,
Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander
M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
- Abstract要約: 我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
- 参考スコア(独自算出の注目度): 122.55393759474181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models trained on natural documents, which interleave images
and text, outperform models trained on image-text pairs on various multimodal
benchmarks. However, the datasets used to train these models have not been
released, and the collection process has not been fully specified. We introduce
the OBELICS dataset, an open web-scale filtered dataset of interleaved
image-text documents comprising 141 million web pages extracted from Common
Crawl, 353 million associated images, and 115 billion text tokens. We describe
the dataset creation process, present comprehensive filtering rules, and
provide an analysis of the dataset's content. To show the viability of OBELICS,
we train vision and language models of 9 and 80 billion parameters named
IDEFICS, and obtain competitive performance on different multimodal benchmarks.
We release our dataset, models and code.
- Abstract(参考訳): 画像とテキストをインターリーブする自然文書でトレーニングされた大規模マルチモーダルモデルは、様々なマルチモーダルベンチマークで画像-テキストペアでトレーニングされたモデルを上回っている。
しかし、これらのモデルのトレーニングに使われるデータセットはリリースされておらず、収集プロセスは完全に特定されていない。
我々は,Common Crawlから抽出された1億1100万のWebページ,3億3300万の関連画像,および1150億のテキストトークンからなる,オープンなWebスケールの画像テキスト文書のフィルタリングデータセットであるOBELICSデータセットを紹介する。
本稿では,データセット作成プロセスを説明し,包括的フィルタリングルールを提示し,データセットの内容の分析を行う。
OBELICSの有効性を示すため、IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
データセット、モデル、コードをリリースします。
関連論文リスト
- COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - IIITD-20K: Dense captioning for Text-Image ReID [5.858839403963778]
IIITD-20Kは野生で捕獲された2万のユニークなアイデンティティから構成される。
説明のための最低26語で、各画像は濃密にキャプションされる。
我々は、最先端のテキスト・ツー・イメージReIDモデルとビジョン言語事前学習モデルを用いて、精巧な実験を行う。
論文 参考訳(メタデータ) (2023-05-08T06:46:56Z) - GLAMI-1M: A Multilingual Image-Text Fashion Dataset [0.0]
GLAMI-1Mは、多言語画像テキスト分類データセットとベンチマークで最大である。
データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。
論文 参考訳(メタデータ) (2022-11-17T13:19:07Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - A Dataset and Benchmarks for Multimedia Social Analysis [0.0]
マルチモダリティ学習の推進を目的とした,新しい公開データセットを提案する。
677万件の投稿、290万件の投稿画像、488万件の投稿ビデオ、14万件のコメント画像、460万件のコメントビデオ、9690万件のコメントが共同で利用可能である。
論文 参考訳(メタデータ) (2020-06-05T11:33:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。