論文の概要: Retrieval-Augmented Multimodal Language Modeling
- arxiv url: http://arxiv.org/abs/2211.12561v1
- Date: Tue, 22 Nov 2022 20:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:37:39.638825
- Title: Retrieval-Augmented Multimodal Language Modeling
- Title(参考訳): 検索型マルチモーダル言語モデリング
- Authors: Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure
Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih
- Abstract要約: Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。
RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
- 参考スコア(独自算出の注目度): 176.9150885247416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal models such as DALL-E and CM3 have achieved remarkable
progress in text-to-image and image-to-text generation. However, these models
store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the
model parameters, requiring increasingly larger models and training data to
capture more knowledge. To integrate knowledge in a more scalable and modular
way, we propose a retrieval-augmented multimodal model, which enables a base
multimodal model (generator) to refer to relevant knowledge fetched by a
retriever from external memory (e.g., multimodal documents on the web).
Specifically, we implement a retriever using the pretrained CLIP model and a
generator using the CM3 Transformer architecture, and train this model using
the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3),
is the first multimodal model that can retrieve and generate mixtures of text
and images. We show that RA-CM3 significantly outperforms baseline multimodal
models such as DALL-E and CM3 on both image and caption generation tasks (12
FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute
for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel
capabilities such as knowledge-intensive image generation and multimodal
in-context learning.
- Abstract(参考訳): dall-eやcm3といった最近のマルチモーダルモデルは、テキスト対画像および画像対テキスト生成において著しい進歩を遂げている。
しかし、これらのモデルはモデルパラメータにすべての学習知識(例えばエッフェル塔の出現)を格納し、より多くの知識を捉えるためにますます大きなモデルと訓練データを必要としている。
よりスケーラブルでモジュール化された方法で知識を統合するために、ベースマルチモーダルモデル(ジェネレータ)が外部メモリから取得した関連する知識(例えば、web上のマルチモーダルドキュメント)を参照することができる検索型マルチモーダルモデルを提案する。
具体的には、事前訓練されたCLIPモデルとCM3 Transformerアーキテクチャを用いたジェネレータを使用してレトリバーを実装し、LAIONデータセットを用いてこのモデルをトレーニングする。
我々の生成したモデルであるRetrieval-Augmented CM3 (RA-CM3) は、テキストと画像の混合を検索・生成できる最初のマルチモーダルモデルである。
RA-CM3はイメージ生成タスクとキャプション生成タスク(MS-COCOでは12 FIDと17 CIDErの改善)において,DALL-EやCM3などのベースラインマルチモーダルモデルよりも大幅に優れており,DALL-Eの30%)よりもはるかに少ない計算処理を必要とする。
さらに,RA-CM3は,知識集約型画像生成やマルチモーダル・インコンテキスト学習などの新しい能力を示すことを示す。
関連論文リスト
- Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。
例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。
MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文 参考訳(メタデータ) (2024-05-29T17:59:10Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。