Fugu-MT 論文翻訳(概要): Retrieval-Augmented Multimodal Language Modeling

論文の概要: Retrieval-Augmented Multimodal Language Modeling

arxiv url: http://arxiv.org/abs/2211.12561v1
Date: Tue, 22 Nov 2022 20:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 13:37:39.638825
Title: Retrieval-Augmented Multimodal Language Modeling
Title（参考訳）: 検索型マルチモーダル言語モデリング
Authors: Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih
Abstract要約: Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
参考スコア（独自算出の注目度）: 176.9150885247416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent multimodal models such as DALL-E and CM3 have achieved remarkable progress in text-to-image and image-to-text generation. However, these models store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the model parameters, requiring increasingly larger models and training data to capture more knowledge. To integrate knowledge in a more scalable and modular way, we propose a retrieval-augmented multimodal model, which enables a base multimodal model (generator) to refer to relevant knowledge fetched by a retriever from external memory (e.g., multimodal documents on the web). Specifically, we implement a retriever using the pretrained CLIP model and a generator using the CM3 Transformer architecture, and train this model using the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3), is the first multimodal model that can retrieve and generate mixtures of text and images. We show that RA-CM3 significantly outperforms baseline multimodal models such as DALL-E and CM3 on both image and caption generation tasks (12 FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel capabilities such as knowledge-intensive image generation and multimodal in-context learning.
Abstract（参考訳）: dall-eやcm3といった最近のマルチモーダルモデルは、テキスト対画像および画像対テキスト生成において著しい進歩を遂げている。しかし、これらのモデルはモデルパラメータにすべての学習知識(例えばエッフェル塔の出現)を格納し、より多くの知識を捉えるためにますます大きなモデルと訓練データを必要としている。よりスケーラブルでモジュール化された方法で知識を統合するために、ベースマルチモーダルモデル(ジェネレータ)が外部メモリから取得した関連する知識(例えば、web上のマルチモーダルドキュメント)を参照することができる検索型マルチモーダルモデルを提案する。具体的には、事前訓練されたCLIPモデルとCM3 Transformerアーキテクチャを用いたジェネレータを使用してレトリバーを実装し、LAIONデータセットを用いてこのモデルをトレーニングする。我々の生成したモデルであるRetrieval-Augmented CM3 (RA-CM3) は、テキストと画像の混合を検索・生成できる最初のマルチモーダルモデルである。 RA-CM3はイメージ生成タスクとキャプション生成タスク(MS-COCOでは12 FIDと17 CIDErの改善)において,DALL-EやCM3などのベースラインマルチモーダルモデルよりも大幅に優れており,DALL-Eの30%)よりもはるかに少ない計算処理を必要とする。さらに,RA-CM3は,知識集約型画像生成やマルチモーダル・インコンテキスト学習などの新しい能力を示すことを示す。

関連論文リスト

Emerging Properties in Unified Multimodal Pretraining [32.856334401494145]
マルチモーダル理解と生成をサポートするオープンソースの基盤モデルであるBAGELを紹介する。 BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダのみのモデルである。オープンソースの統一モデルでは、マルチモーダル生成と標準ベンチマークでの理解の両方において、大幅に優れています。
論文参考訳（メタデータ） (2025-05-20T17:59:30Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding [12.34529497235534]
一貫性モデル(CM)は、画像とテキストの両方を効率的に生成する可能性を示している。主な課題は、画像生成とテキスト生成の両方に統一された認知的視点を確立することである。テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIPスコアでSD3を上回っている。画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5倍高速である。
論文参考訳（メタデータ） (2025-02-08T02:52:25Z)
Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文参考訳（メタデータ） (2024-06-11T18:29:13Z)
Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。 MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文参考訳（メタデータ） (2024-05-29T17:59:10Z)
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文参考訳（メタデータ） (2024-04-23T21:00:22Z)
LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。 LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-08T00:03:52Z)
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。 CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-09-05T21:27:27Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
MoMo: A shared encoder Model for text, image and multi-Modal representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文参考訳（メタデータ） (2023-04-11T22:26:10Z)
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (2022-08-22T16:55:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。