論文の概要: Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With
Text
- arxiv url: http://arxiv.org/abs/2304.06939v1
- Date: Fri, 14 Apr 2023 06:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:31:57.405610
- Title: Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With
Text
- Title(参考訳): マルチモーダルc4:テキストとインターリーブされた10億規模の画像コーパス
- Authors: Wanrong Zhu and Jack Hessel and Anas Awadalla and Samir Yitzhak Gadre
and Jesse Dodge and Alex Fang and Youngjae Yu and Ludwig Schmidt and William
Yang Wang and Yejin Choi
- Abstract要約: テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。
このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。
我々はMultimodal C4 (mmc4) をリリースした。
- 参考スコア(独自算出の注目度): 104.01887688172178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context vision and language models like Flamingo support arbitrarily
interleaved sequences of images and text as input. This format not only enables
few-shot learning via interleaving independent supervised (image, text)
examples, but also, more complex prompts involving interaction between images,
e.g., "What do image A and image B have in common?" To support this interface,
pretraining occurs over web corpora that similarly contain interleaved
images+text. To date, however, large-scale data of this form have not been
publicly available.
We release Multimodal C4 (mmc4), an augmentation of the popular text-only c4
corpus with images interleaved. We use a linear assignment algorithm to place
images into longer bodies of text using CLIP features, a process that we show
outperforms alternatives. mmc4 spans everyday topics like cooking, travel,
technology, etc. A manual inspection of a random sample of documents shows that
a vast majority (90%) of images are topically relevant, and that linear
assignment frequently selects individual sentences specifically well-aligned
with each image (78%). After filtering NSFW images, ads, etc., the corpus
contains 103M documents containing 585M images interleaved with 43B English
tokens.
- Abstract(参考訳): コンテキスト内ビジョンとflamingoのような言語モデルは、入力として画像とテキストの任意にインターリーブされたシーケンスをサポートする。
このフォーマットは、独立した教師付き(画像、テキスト)例をインターリーブすることで、少数のショット学習を可能にするだけでなく、画像間のインタラクションを含むより複雑なプロンプト、例えば「画像aと画像bの共通点は何か?
このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。
しかし、現在までこの形式の大規模データは公開されていない。
マルチモーダルc4 (mmc4) は、画像がインターリーブされた人気のテキストのみのc4コーパスの強化である。
線形代入アルゴリズムを用いて、CLIP機能を用いて、画像の長文体への配置を行う。
mmc4は、料理、旅行、技術など、日々のトピックを扱っている。
ランダムな文書のサンプルを手作業で検査すると、画像の90%が局所的に関連しており、線形代入は各画像に特異的に整列した個々の文を頻繁に選択する(78%)。
NSFW画像や広告等をフィルタリングした後、コーパスは43Bの英語トークンをインターリーブした585万の画像を含む103Mドキュメントを含む。
関連論文リスト
- OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Linking Representations with Multimodal Contrastive Learning [1.6874375111244329]
歴史的記録リンクアプリケーションでは、文書は通常、光学文字認識(OCR)によってノイズに書き起こされる。
マルチモーダル学習を活用するために,CLIPPINGS(Linking Pooled Pre-trained Embeddings)を開発した。
論文 参考訳(メタデータ) (2023-04-07T03:39:08Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Sequence-aware multimodal page classification of Brazilian legal
documents [0.21204495827342434]
我々は,新たな6,510件の訴訟のマルチモーダルデータセットをトレーニングし,評価する。
各訴訟は順序付けられたページのシーケンスであり、画像と対応するテキストの両方として格納される。
我々はこれらを視覚的特徴とテキスト的特徴の抽出器として使用し、提案したFusion Moduleを通して組み合わせる。
論文 参考訳(メタデータ) (2022-07-02T06:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。