論文の概要: Comparison of Text-Based and Image-Based Retrieval in Multimodal Retrieval Augmented Generation Large Language Model Systems
- arxiv url: http://arxiv.org/abs/2511.16654v1
- Date: Thu, 20 Nov 2025 18:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.800642
- Title: Comparison of Text-Based and Image-Based Retrieval in Multimodal Retrieval Augmented Generation Large Language Model Systems
- Title(参考訳): 多モーダル検索型大規模言語モデルシステムにおけるテキストベースと画像ベース検索の比較
- Authors: Elias Lumer, Alex Cardenas, Matt Melich, Myles Mason, Sara Dieter, Vamse Kumar Subbiah, Pradeep Honaganahalli Basavaraju, Roberto Hernandez,
- Abstract要約: 本稿では,マルチモーダルRAGシステムにおける2つの検索手法の比較分析を行う。
直接マルチモーダル埋め込み検索は、LLM-summary-based approachよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Retrieval-Augmented Generation (RAG) have enabled Large Language Models (LLMs) to access multimodal knowledge bases containing both text and visual information such as charts, diagrams, and tables in financial documents. However, existing multimodal RAG systems rely on LLM-based summarization to convert images into text during preprocessing, storing only text representations in vector databases, which causes loss of contextual information and visual details critical for downstream retrieval and question answering. To address this limitation, we present a comprehensive comparative analysis of two retrieval approaches for multimodal RAG systems, including text-based chunk retrieval (where images are summarized into text before embedding) and direct multimodal embedding retrieval (where images are stored natively in the vector space). We evaluate all three approaches across 6 LLM models and a two multi-modal embedding models on a newly created financial earnings call benchmark comprising 40 question-answer pairs, each paired with 2 documents (1 image and 1 text chunk). Experimental results demonstrate that direct multimodal embedding retrieval significantly outperforms LLM-summary-based approaches, achieving absolute improvements of 13% in mean average precision (mAP@5) and 11% in normalized discounted cumulative gain. These gains correspond to relative improvements of 32% in mAP@5 and 20% in nDCG@5, providing stronger evidence of their practical impact. We additionally find that direct multimodal retrieval produces more accurate and factually consistent answers as measured by LLM-as-a-judge pairwise comparisons. We demonstrate that LLM summarization introduces information loss during preprocessing, whereas direct multimodal embeddings preserve visual context for retrieval and inference.
- Abstract(参考訳): 近年のRAG(Retrieval-Augmented Generation)の進歩により、LLM(Large Language Models)は、財務文書の表や図、表などのテキスト情報と視覚情報の両方を含むマルチモーダルな知識ベースにアクセスできるようになった。
しかし、既存のマルチモーダルRAGシステムは、前処理中に画像からテキストに変換するためにLLMベースの要約に依存しており、ベクトルデータベースにテキスト表現のみを格納しているため、下流の検索や質問応答において重要なコンテキスト情報や視覚的詳細が失われる。
この制限に対処するために、テキストベースのチャンク検索(埋め込み前に画像がテキストに要約される)や直接マルチモーダル埋め込み検索(ベクトル空間に画像がネイティブに格納される)を含む、マルチモーダルRAGシステムに対する2つの検索手法の総合的な比較分析を行う。
2つの文書(画像1枚とテキストチャンク1枚)をペアにした40の質問応答対からなる財務収支表の3つのアプローチと2つのマルチモーダル埋め込みモデルを新たに作成した財務収支表上で評価した。
実験の結果, 直接マルチモーダル埋め込み検索は, 平均平均精度 (mAP@5) で13%, 正規化割引累積ゲインで11%, LLM-summary-based approach で有意に優れていた。
これらの利得は、mAP@5で32%、nDCG@5で20%の相対的な改善に対応し、その実践的影響の強い証拠となる。
さらに, LLM-as-a-judge のペア比較により, 直接マルチモーダル検索により, より正確かつ現実的に一貫した解が得られることがわかった。
LLMの要約では,事前処理中に情報損失が発生するのに対し,直接マルチモーダル埋め込みでは検索や推論の視覚的コンテキストが保たれている。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。