論文の概要: MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text
- arxiv url: http://arxiv.org/abs/2210.02928v1
- Date: Thu, 6 Oct 2022 13:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:56:46.266073
- Title: MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text
- Title(参考訳): MuRAG:画像とテキストに対するオープン質問応答のためのマルチモーダル検索拡張ジェネレータ
- Authors: Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William W. Cohen
- Abstract要約: 我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 58.655375327681774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language Models store a massive amount of world knowledge implicitly in
their parameters, even very large models often fail to encode information about
rare entities and events, while incurring huge computational costs. Recently,
retrieval-augmented models, such as REALM, RAG, and RETRO, have incorporated
world knowledge into language generation by leveraging an external
non-parametric index and have demonstrated impressive performance with
constrained model sizes. However, these methods are restricted to retrieving
only textual knowledge, neglecting the ubiquitous amount of knowledge in other
modalities like images -- much of which contains information not covered by any
text. To address this limitation, we propose the first Multimodal
Retrieval-Augmented Transformer (MuRAG), which accesses an external
non-parametric multimodal memory to augment language generation. MuRAG is
pre-trained with a mixture of large-scale image-text and text-only corpora
using a joint contrastive and generative loss. We perform experiments on two
different datasets that require retrieving and reasoning over both images and
text to answer a given query: WebQA, and MultimodalQA. Our results show that
MuRAG achieves state-of-the-art accuracy, outperforming existing models by
10-20\% absolute on both datasets and under both distractor and full-wiki
settings.
- Abstract(参考訳): 言語モデルは、そのパラメータに暗黙的に大量の世界知識を格納するが、非常に大きなモデルでさえ、膨大な計算コストを伴いながら、まれなエンティティやイベントに関する情報をエンコードできないことが多い。
近年,REALM,RAG,RETROなどの検索強化モデルでは,外部の非パラメトリック指標を活用して世界知識を言語生成に取り入れ,制約付きモデルサイズで印象的な性能を示した。
しかし、これらの手法は、画像のような他のモダリティにおけるユビキタスな知識を無視して、テキストの知識のみを取得することに制限されている。
この制限に対処するために、外部のパラメトリックなマルチモーダルメモリにアクセスして言語生成を行う、最初のMultimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは、大規模な画像テキストとテキストのみのコーパスの混合で、ジョイントコントラストとジェネレーションロスを用いて事前訓練される。
我々は,WebQAとMultimodalQAという,与えられたクエリに応答するために,画像とテキストの検索と推論を必要とする2つの異なるデータセットの実験を行う。
以上の結果から,mragは既存のモデルと比較して,データセットと気晴らし設定とウィキ設定の両方において絶対値が10~20\%向上した。
関連論文リスト
- EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset [20.445453185198186]
本稿では,データ収集における人的・資源的負担を軽減するため,MDCF(Multimodal Data Construction Framework)を提案する。
MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供する。
実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。
論文 参考訳(メタデータ) (2023-10-17T03:28:29Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - ZRIGF: An Innovative Multimodal Framework for Zero-Resource
Image-Grounded Dialogue Generation [17.310200022696016]
ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。
テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-08-01T09:28:36Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。