Fugu-MT 論文翻訳(概要): OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

論文の概要: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

arxiv url: http://arxiv.org/abs/2406.08418v2
Date: Thu, 13 Jun 2024 17:21:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 17:54:01.956793
Title: OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
Title（参考訳）: OmniCorpus:100億レベル画像にテキストを埋め込んだ統合マルチモーダルコーパス
Authors: Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai,
Abstract要約: 我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
参考スコア（独自算出の注目度）: 112.60163342249682
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.
Abstract（参考訳）: 自然文書形式で配置された複数の画像とテキストからなる画像-テキストインターリーブドデータは、インターネットデータの提示パラダイムと整合し、人間の読書習慣によく似ている。近年の研究では、このようなデータがマルチモーダル・イン・コンテクスト学習に役立ち、マルチモーダル微調整時の大規模言語モデルの能力を維持することが示されている。しかし、現在の画像テキストインターリーブデータの規模と多様性は、マルチモーダルな大言語モデルの開発を制限している。本稿では,100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。効率的なデータエンジンを用いて860億の画像と1,696億のテキストトークンを含む大規模高品質の文書をフィルタリング・抽出する。私たちのデータセット(例えば、MCC4、OBELICS)と比較してみましょう。 1) 優れたデータ品質を維持しながら、15倍のスケールを持つ。 2) 英語と非英語の両方のWebサイトやビデオ中心のWebサイトを含む、より多様なソースが特徴である。 3) より柔軟で、画像テキストインターリーブドフォーマットから純粋なテキストコーパスと画像テキストペアへ容易に分解できる。総合的な分析と実験を通じて,提案したデータセットの品質,ユーザビリティ,有効性を検証する。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。コードとデータはhttps://github.com/OpenGVLab/OmniCorpusで公開されている。

関連論文リスト

MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation [19.068161657967007]
実世界のデータから得られた10万以上の画像テキストペアを用いた多言語画像翻訳の大規模並列コーパスであるMIT-10Mを紹介する。 3つのサイズの840Kイメージ、28のカテゴリ、難易度3レベルのタスク、14の言語とテキストのペアが含まれており、既存のデータセットでは大幅に改善されている。
論文参考訳（メタデータ） (2024-12-10T03:12:35Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文参考訳（メタデータ） (2024-06-13T00:13:32Z)
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。 ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文参考訳（メタデータ） (2023-10-05T17:55:19Z)
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文参考訳（メタデータ） (2023-08-23T09:55:41Z)
Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文参考訳（メタデータ） (2023-08-16T05:59:33Z)
Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。 DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文参考訳（メタデータ） (2023-07-19T17:47:12Z)
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。 IDEFICSという名前の9～800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文参考訳（メタデータ） (2023-06-21T14:01:01Z)
LAION-5B: An open large-scale dataset for training next generation image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文参考訳（メタデータ） (2022-10-16T00:08:18Z)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (2022-05-23T17:42:53Z)
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning [19.203716881791312]
ウィキペディアベースの画像テキスト(WIT)データセットを紹介する。 witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。 WITは3倍の画像-テキストサンプル数で最大のマルチモーダルデータセットです。
論文参考訳（メタデータ） (2021-03-02T18:13:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。