論文の概要: MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text
- arxiv url: http://arxiv.org/abs/2210.02928v1
- Date: Thu, 6 Oct 2022 13:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:56:46.266073
- Title: MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text
- Title(参考訳): MuRAG:画像とテキストに対するオープン質問応答のためのマルチモーダル検索拡張ジェネレータ
- Authors: Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William W. Cohen
- Abstract要約: 我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 58.655375327681774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language Models store a massive amount of world knowledge implicitly in
their parameters, even very large models often fail to encode information about
rare entities and events, while incurring huge computational costs. Recently,
retrieval-augmented models, such as REALM, RAG, and RETRO, have incorporated
world knowledge into language generation by leveraging an external
non-parametric index and have demonstrated impressive performance with
constrained model sizes. However, these methods are restricted to retrieving
only textual knowledge, neglecting the ubiquitous amount of knowledge in other
modalities like images -- much of which contains information not covered by any
text. To address this limitation, we propose the first Multimodal
Retrieval-Augmented Transformer (MuRAG), which accesses an external
non-parametric multimodal memory to augment language generation. MuRAG is
pre-trained with a mixture of large-scale image-text and text-only corpora
using a joint contrastive and generative loss. We perform experiments on two
different datasets that require retrieving and reasoning over both images and
text to answer a given query: WebQA, and MultimodalQA. Our results show that
MuRAG achieves state-of-the-art accuracy, outperforming existing models by
10-20\% absolute on both datasets and under both distractor and full-wiki
settings.
- Abstract(参考訳): 言語モデルは、そのパラメータに暗黙的に大量の世界知識を格納するが、非常に大きなモデルでさえ、膨大な計算コストを伴いながら、まれなエンティティやイベントに関する情報をエンコードできないことが多い。
近年,REALM,RAG,RETROなどの検索強化モデルでは,外部の非パラメトリック指標を活用して世界知識を言語生成に取り入れ,制約付きモデルサイズで印象的な性能を示した。
しかし、これらの手法は、画像のような他のモダリティにおけるユビキタスな知識を無視して、テキストの知識のみを取得することに制限されている。
この制限に対処するために、外部のパラメトリックなマルチモーダルメモリにアクセスして言語生成を行う、最初のMultimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは、大規模な画像テキストとテキストのみのコーパスの混合で、ジョイントコントラストとジェネレーションロスを用いて事前訓練される。
我々は,WebQAとMultimodalQAという,与えられたクエリに応答するために,画像とテキストの検索と推論を必要とする2つの異なるデータセットの実験を行う。
以上の結果から,mragは既存のモデルと比較して,データセットと気晴らし設定とウィキ設定の両方において絶対値が10~20\%向上した。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
一般のエンティティを用いたMSCOCOデータセットによる評価結果から,GPT-4oやGemini-Proといったプロプライエタリモデルも,UniIRモデルのようなMMレトリバーが取得した関連情報を用いて入力プロンプトを拡張した場合,生成品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T17:58:45Z) - EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset [20.445453185198186]
本稿では,データ収集における人的・資源的負担を軽減するため,MDCF(Multimodal Data Construction Framework)を提案する。
MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供する。
実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。
論文 参考訳(メタデータ) (2023-10-17T03:28:29Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。