論文の概要: Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2309.02591v1
- Date: Tue, 5 Sep 2023 21:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 17:24:55.286426
- Title: Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning
- Title(参考訳): 自己回帰型マルチモーダルモデルのスケーリング:事前トレーニングと命令チューニング
- Authors: Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga
Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin,
Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes
Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James,
Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke
Zettlemoyer, Armen Aghajanyan
- Abstract要約: CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 115.50132185963139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented,
token-based, decoder-only multi-modal language model capable of generating and
infilling both text and images. CM3Leon uses the CM3 multi-modal architecture
but additionally shows the extreme benefits of scaling up and tuning on more
diverse instruction-style data. It is the first multi-modal model trained with
a recipe adapted from text-only language models, including a large-scale
retrieval-augmented pre-training stage and a second multi-task supervised
fine-tuning (SFT) stage. It is also a general-purpose model that can do both
text-to-image and image-to-text generation, allowing us to introduce
self-contained contrastive decoding methods that produce high-quality outputs.
Extensive experiments demonstrate that this recipe is highly effective for
multi-modal models. CM3Leon achieves state-of-the-art performance in
text-to-image generation with 5x less training compute than comparable methods
(zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate
unprecedented levels of controllability in tasks ranging from language-guided
image editing to image-controlled generation and segmentation.
- Abstract(参考訳): cm3leon("chameleon"と発音される)は、テキストと画像の両方を生成および埋め込むことができる、検索型、トークンベース、デコーダのみのマルチモーダル言語モデルである。
CM3LeonはCM3マルチモーダルアーキテクチャを使用しているが、さらに多様な命令スタイルのデータをスケールアップおよびチューニングする際の極端な利点を示している。
これはテキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルであり、大規模な検索強化事前学習ステージと、SFT(Multi-task supervised fine-tuning)ステージを含む。
また、テキスト対画像および画像対テキスト生成の両方が可能な汎用モデルであり、高品質な出力を生成する自己完結型コントラスト復号法を導入することができる。
広範な実験により、このレシピがマルチモーダルモデルに非常に有効であることが示されている。
CM3Leonは、テキスト・ツー・イメージ生成における最先端のパフォーマンスを、同等の手法(ゼロショットMS-COCO FID:4.88)よりも5倍少ないトレーニング計算で達成している。
SFT後、CM3Leonは言語誘導画像編集から画像制御生成、セグメンテーションに至るまで、前例のないレベルの制御可能性を示すことができる。
関連論文リスト
- mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.40705814904898]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。
具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文 参考訳(メタデータ) (2024-08-09T03:25:42Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Retrieval-Augmented Multimodal Language Modeling [176.9150885247416]
DALL-EやCM3のようなマルチモーダルモデルは、テキスト・ツー・イメージと画像・ツー・テキスト生成において顕著な進歩を遂げている。
ベースマルチモーダルモデルでは,検索者が外部メモリから取得した関連テキストや画像を参照することができる。
我々の生成したモデルであるRetrieval-Augmented CM3は、テキストと画像の両方を検索して生成できる最初のマルチモーダルモデルである。
論文 参考訳(メタデータ) (2022-11-22T20:26:44Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。