Fugu-MT 論文翻訳(概要): MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text

論文の概要: MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text

arxiv url: http://arxiv.org/abs/2210.02928v1
Date: Thu, 6 Oct 2022 13:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 14:56:46.266073
Title: MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text
Title（参考訳）: MuRAG:画像とテキストに対するオープン質問応答のためのマルチモーダル検索拡張ジェネレータ
Authors: Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William W. Cohen
Abstract要約: 我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
参考スコア（独自算出の注目度）: 58.655375327681774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While language Models store a massive amount of world knowledge implicitly in their parameters, even very large models often fail to encode information about rare entities and events, while incurring huge computational costs. Recently, retrieval-augmented models, such as REALM, RAG, and RETRO, have incorporated world knowledge into language generation by leveraging an external non-parametric index and have demonstrated impressive performance with constrained model sizes. However, these methods are restricted to retrieving only textual knowledge, neglecting the ubiquitous amount of knowledge in other modalities like images -- much of which contains information not covered by any text. To address this limitation, we propose the first Multimodal Retrieval-Augmented Transformer (MuRAG), which accesses an external non-parametric multimodal memory to augment language generation. MuRAG is pre-trained with a mixture of large-scale image-text and text-only corpora using a joint contrastive and generative loss. We perform experiments on two different datasets that require retrieving and reasoning over both images and text to answer a given query: WebQA, and MultimodalQA. Our results show that MuRAG achieves state-of-the-art accuracy, outperforming existing models by 10-20\% absolute on both datasets and under both distractor and full-wiki settings.
Abstract（参考訳）: 言語モデルは、そのパラメータに暗黙的に大量の世界知識を格納するが、非常に大きなモデルでさえ、膨大な計算コストを伴いながら、まれなエンティティやイベントに関する情報をエンコードできないことが多い。近年,REALM,RAG,RETROなどの検索強化モデルでは,外部の非パラメトリック指標を活用して世界知識を言語生成に取り入れ,制約付きモデルサイズで印象的な性能を示した。しかし、これらの手法は、画像のような他のモダリティにおけるユビキタスな知識を無視して、テキストの知識のみを取得することに制限されている。この制限に対処するために、外部のパラメトリックなマルチモーダルメモリにアクセスして言語生成を行う、最初のMultimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは、大規模な画像テキストとテキストのみのコーパスの混合で、ジョイントコントラストとジェネレーションロスを用いて事前訓練される。我々は,WebQAとMultimodalQAという,与えられたクエリに応答するために,画像とテキストの検索と推論を必要とする2つの異なるデータセットの実験を行う。以上の結果から,mragは既存のモデルと比較して,データセットと気晴らし設定とウィキ設定の両方において絶対値が10～20\%向上した。

関連論文リスト

Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-23T10:11:56Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。一般のエンティティを用いたMSCOCOデータセットによる評価結果から,GPT-4oやGemini-Proといったプロプライエタリモデルも,UniIRモデルのようなMMレトリバーが取得した関連情報を用いて入力プロンプトを拡張した場合,生成品質を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-16T17:58:45Z)
EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset [20.445453185198186]
本稿では,データ収集における人的・資源的負担を軽減するため,MDCF(Multimodal Data Construction Framework)を提案する。 MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供する。実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。
論文参考訳（メタデータ） (2023-10-17T03:28:29Z)
JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文参考訳（メタデータ） (2023-07-03T02:39:08Z)
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。 R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文参考訳（メタデータ） (2023-06-15T20:56:20Z)
MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文参考訳（メタデータ） (2022-08-24T13:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。