Fugu-MT 論文翻訳(概要): OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

論文の概要: OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

arxiv url: http://arxiv.org/abs/2306.16527v2
Date: Mon, 21 Aug 2023 09:35:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 23:14:15.714500
Title: OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents
Title（参考訳）: OBELICS: インターリーブされた画像テキストドキュメントのオープンなWebスケールフィルタリングデータセット
Authors: Hugo Lauren\c{c}on, Lucile Saulnier, L\'eo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
Abstract要約: 我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。 IDEFICSという名前の9～800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
参考スコア（独自算出の注目度）: 122.55393759474181
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELICS dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELICS, we train vision and language models of 9 and 80 billion parameters named IDEFICS, and obtain competitive performance on different multimodal benchmarks. We release our dataset, models and code.
Abstract（参考訳）: 画像とテキストをインターリーブする自然文書でトレーニングされた大規模マルチモーダルモデルは、様々なマルチモーダルベンチマークで画像-テキストペアでトレーニングされたモデルを上回っている。しかし、これらのモデルのトレーニングに使われるデータセットはリリースされておらず、収集プロセスは完全に特定されていない。我々は,Common Crawlから抽出された1億1100万のWebページ,3億3300万の関連画像,および1150億のテキストトークンからなる,オープンなWebスケールの画像テキスト文書のフィルタリングデータセットであるOBELICSデータセットを紹介する。本稿では,データセット作成プロセスを説明し,包括的フィルタリングルールを提示し,データセットの内容の分析を行う。 OBELICSの有効性を示すため、IDEFICSという名前の9～800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。データセット、モデル、コードをリリースします。

関連論文リスト

Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models [0.351124620232225]
我々は、インターリーブされた画像テキストWebドキュメントから派生した新しいデータセットVisCon-100Kを紹介する。提案手法では,45KのWebドキュメントをOBELICSデータセットから100Kの画像会話サンプルに変換する。 GPT-4V を用いて画像・コンテキストキャプションと OpenChat 3.5 モデルを生成し,これらのキャプションを多種多様な自由形式の質問応答対に変換する。
論文参考訳（メタデータ） (2025-02-14T15:59:33Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文参考訳（メタデータ） (2024-01-01T18:58:42Z)
JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文参考訳（メタデータ） (2023-07-03T02:39:08Z)
DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。 DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。また、RVL-CDIP文書分類における競合性能も達成する。
論文参考訳（メタデータ） (2023-05-23T16:34:09Z)
GLAMI-1M: A Multilingual Image-Text Fashion Dataset [0.0]
GLAMI-1Mは、多言語画像テキスト分類データセットとベンチマークで最大である。データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。
論文参考訳（メタデータ） (2022-11-17T13:19:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。