論文の概要: MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text
- arxiv url: http://arxiv.org/abs/2210.02928v1
- Date: Thu, 6 Oct 2022 13:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:56:46.266073
- Title: MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text
- Title(参考訳): MuRAG:画像とテキストに対するオープン質問応答のためのマルチモーダル検索拡張ジェネレータ
- Authors: Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William W. Cohen
- Abstract要約: 我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 58.655375327681774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language Models store a massive amount of world knowledge implicitly in
their parameters, even very large models often fail to encode information about
rare entities and events, while incurring huge computational costs. Recently,
retrieval-augmented models, such as REALM, RAG, and RETRO, have incorporated
world knowledge into language generation by leveraging an external
non-parametric index and have demonstrated impressive performance with
constrained model sizes. However, these methods are restricted to retrieving
only textual knowledge, neglecting the ubiquitous amount of knowledge in other
modalities like images -- much of which contains information not covered by any
text. To address this limitation, we propose the first Multimodal
Retrieval-Augmented Transformer (MuRAG), which accesses an external
non-parametric multimodal memory to augment language generation. MuRAG is
pre-trained with a mixture of large-scale image-text and text-only corpora
using a joint contrastive and generative loss. We perform experiments on two
different datasets that require retrieving and reasoning over both images and
text to answer a given query: WebQA, and MultimodalQA. Our results show that
MuRAG achieves state-of-the-art accuracy, outperforming existing models by
10-20\% absolute on both datasets and under both distractor and full-wiki
settings.
- Abstract(参考訳): 言語モデルは、そのパラメータに暗黙的に大量の世界知識を格納するが、非常に大きなモデルでさえ、膨大な計算コストを伴いながら、まれなエンティティやイベントに関する情報をエンコードできないことが多い。
近年,REALM,RAG,RETROなどの検索強化モデルでは,外部の非パラメトリック指標を活用して世界知識を言語生成に取り入れ,制約付きモデルサイズで印象的な性能を示した。
しかし、これらの手法は、画像のような他のモダリティにおけるユビキタスな知識を無視して、テキストの知識のみを取得することに制限されている。
この制限に対処するために、外部のパラメトリックなマルチモーダルメモリにアクセスして言語生成を行う、最初のMultimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは、大規模な画像テキストとテキストのみのコーパスの混合で、ジョイントコントラストとジェネレーションロスを用いて事前訓練される。
我々は,WebQAとMultimodalQAという,与えられたクエリに応答するために,画像とテキストの検索と推論を必要とする2つの異なるデータセットの実験を行う。
以上の結果から,mragは既存のモデルと比較して,データセットと気晴らし設定とウィキ設定の両方において絶対値が10~20\%向上した。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
一般のエンティティを用いたMSCOCOデータセットによる評価結果から,GPT-4oやGemini-Proといったプロプライエタリモデルも,UniIRモデルのようなMMレトリバーが取得した関連情報を用いて入力プロンプトを拡張した場合,生成品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T17:58:45Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。