論文の概要: Retrieval-Augmented Multimodal Language Modeling
- arxiv url: http://arxiv.org/abs/2211.12561v1
- Date: Tue, 22 Nov 2022 20:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:37:39.638825
- Title: Retrieval-Augmented Multimodal Language Modeling
- Title(参考訳): 検索型マルチモーダル言語モデリング
- Authors: Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure
Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih
- Abstract要約: Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。
RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
- 参考スコア(独自算出の注目度): 176.9150885247416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal models such as DALL-E and CM3 have achieved remarkable
progress in text-to-image and image-to-text generation. However, these models
store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the
model parameters, requiring increasingly larger models and training data to
capture more knowledge. To integrate knowledge in a more scalable and modular
way, we propose a retrieval-augmented multimodal model, which enables a base
multimodal model (generator) to refer to relevant knowledge fetched by a
retriever from external memory (e.g., multimodal documents on the web).
Specifically, we implement a retriever using the pretrained CLIP model and a
generator using the CM3 Transformer architecture, and train this model using
the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3),
is the first multimodal model that can retrieve and generate mixtures of text
and images. We show that RA-CM3 significantly outperforms baseline multimodal
models such as DALL-E and CM3 on both image and caption generation tasks (12
FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute
for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel
capabilities such as knowledge-intensive image generation and multimodal
in-context learning.
- Abstract(参考訳): dall-eやcm3といった最近のマルチモーダルモデルは、テキスト対画像および画像対テキスト生成において著しい進歩を遂げている。
しかし、これらのモデルはモデルパラメータにすべての学習知識(例えばエッフェル塔の出現)を格納し、より多くの知識を捉えるためにますます大きなモデルと訓練データを必要としている。
よりスケーラブルでモジュール化された方法で知識を統合するために、ベースマルチモーダルモデル(ジェネレータ)が外部メモリから取得した関連する知識(例えば、web上のマルチモーダルドキュメント)を参照することができる検索型マルチモーダルモデルを提案する。
具体的には、事前訓練されたCLIPモデルとCM3 Transformerアーキテクチャを用いたジェネレータを使用してレトリバーを実装し、LAIONデータセットを用いてこのモデルをトレーニングする。
我々の生成したモデルであるRetrieval-Augmented CM3 (RA-CM3) は、テキストと画像の混合を検索・生成できる最初のマルチモーダルモデルである。
RA-CM3はイメージ生成タスクとキャプション生成タスク(MS-COCOでは12 FIDと17 CIDErの改善)において,DALL-EやCM3などのベースラインマルチモーダルモデルよりも大幅に優れており,DALL-Eの30%)よりもはるかに少ない計算処理を必要とする。
さらに,RA-CM3は,知識集約型画像生成やマルチモーダル・インコンテキスト学習などの新しい能力を示すことを示す。
関連論文リスト
- Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。
具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。
従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。
例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。
MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文 参考訳(メタデータ) (2024-05-29T17:59:10Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。