論文の概要: CM3: A Causal Masked Multimodal Model of the Internet
- arxiv url: http://arxiv.org/abs/2201.07520v1
- Date: Wed, 19 Jan 2022 10:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 19:08:30.134006
- Title: CM3: A Causal Masked Multimodal Model of the Internet
- Title(参考訳): cm3: 因果マスキングによるインターネットのマルチモーダルモデル
- Authors: Armen Aghajanyan, Bernie Huang, Candace Ross, Vladimir Karpukhin, Hu
Xu, Naman Goyal, Dmytro Okhonko, Mandar Joshi, Gargi Ghosh, Mike Lewis, Luke
Zettlemoyer
- Abstract要約: 構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
- 参考スコア(独自算出の注目度): 86.32652030161374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CM3, a family of causally masked generative models trained over
a large corpus of structured multi-modal documents that can contain both text
and image tokens. Our new causally masked approach generates tokens left to
right while also masking out a small number of long token spans that are
generated at the end of the string, instead of their original positions. The
casual masking object provides a type of hybrid of the more common causal and
masked language models, by enabling full generative modeling while also
providing bidirectional context when generating the masked spans. We train
causally masked language-image models on large-scale web and Wikipedia
articles, where each document contains all of the text, hypertext markup,
hyperlinks, and image tokens (from a VQVAE-GAN), provided in the order they
appear in the original HTML source (before masking). The resulting CM3 models
can generate rich structured, multi-modal outputs while conditioning on
arbitrary masked document contexts, and thereby implicitly learn a wide range
of text, image, and cross modal tasks. They can be prompted to recover, in a
zero-shot fashion, the functionality of models such as DALL-E, GENRE, and HTLM.
We set the new state-of-the-art in zero-shot summarization, entity linking, and
entity disambiguation while maintaining competitive performance in the
fine-tuning setting. We can generate images unconditionally, conditioned on
text (like DALL-E) and do captioning all in a zero-shot setting with a single
model.
- Abstract(参考訳): CM3は,テキストおよび画像トークンの両方を格納可能な構造化マルチモーダル文書の大規模コーパス上でトレーニングされた因果マスク付き生成モデルのファミリーである。
我々の新しい因果的にマスクされたアプローチは、左から右にトークンを生成し、同時に元の位置ではなく、文字列の最後に生成される少数の長いトークンスパンをマスクする。
カジュアルなマスキングオブジェクトは、マスキングスパンを生成する際に双方向コンテキストを提供しながら完全な生成モデリングを可能にすることで、より一般的な因果およびマスキング言語モデルのハイブリッドを提供する。
ドキュメントには、テキスト、ハイパーテキストマークアップ、ハイパーリンク、画像トークン(vqvae-ganから)のすべてが含まれており、元のhtmlソース(マスキングの前に)に表示される順番で提供される。
結果として得られたcm3モデルは、任意のマスクされたドキュメントコンテキストを条件付けしながら、リッチな構造化されたマルチモーダル出力を生成し、暗黙的に幅広いテキスト、イメージ、クロスモーダルタスクを学習することができる。
ゼロショットで、DALL-E、GENRE、HTLMなどのモデルの機能を回復するよう促すことができる。
我々は,ゼロショット要約,エンティティリンク,エンティティ曖昧さの新たな状態を設定しながら,微調整環境での競争力を維持した。
イメージを無条件に生成し、テキスト(dall-eなど)で条件付けし、ゼロショット設定でキャプションを1つのモデルで実行できます。
関連論文リスト
- Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。
例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。
MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文 参考訳(メタデータ) (2024-05-29T17:59:10Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。