論文の概要: CMRAG: Co-modality-based document retrieval and visual question answering
- arxiv url: http://arxiv.org/abs/2509.02123v1
- Date: Tue, 02 Sep 2025 09:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.979814
- Title: CMRAG: Co-modality-based document retrieval and visual question answering
- Title(参考訳): CMRAG:コモディティに基づく文書検索と視覚的質問応答
- Authors: Wang Chen, Guanqiang Qi, Weikang Li, Yang Li,
- Abstract要約: Retrieval-Augmented Generation (RAG) は文書質問応答タスクの中核となるパラダイムとなっている。
本稿では、テキストと画像を同時に利用して効率的な検索・生成を行うコモダリティに基づくRAGを提案する。
実験の結果,本手法は視覚文書質問応答タスクにおいて,純粋ビジョンに基づくRAGよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 7.9679870806757185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become a core paradigm in document question answering tasks. However, existing methods have limitations when dealing with multimodal documents: one category of methods relies on layout analysis and text extraction, which can only utilize explicit text information and struggle to capture images or unstructured content; the other category treats document segmentation as visual input and directly passes it to visual language models (VLMs) for processing, yet it ignores the semantic advantages of text, leading to suboptimal generation results. This paper proposes co-modality-based RAG (CMRAG), which can simultaneously leverage text and images for efficient retrieval and generation. Specifically, we first perform structured parsing on documents to obtain co-modality representations of text segments and image regions. Subsequently, in response to user queries, we retrieve candidate evidence from text and image channels, respectively, and aggregate the results at the cross-modal retrieval level. Finally, we prompt the VLM to generate the final response based on the co-modality retrieval results. Experiments demonstrate that our method significantly outperforms pure-vision-based RAG in visual document question answering tasks. The findings of this paper show that integrating co-modality information into the RAG framework in a unified manner is an effective approach to improving the performance of complex document visual question-answering (VQA) systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は文書質問応答タスクの中核となるパラダイムとなっている。
しかし、既存の手法では、レイアウト解析やテキスト抽出に制限があり、明示的なテキスト情報しか利用できず、画像や構造化されていないコンテンツをキャプチャするのに苦労する。
本稿では,コモダリティに基づくRAG(CMRAG)を提案する。
具体的には、まず文書の構造化解析を行い、テキストセグメントと画像領域のコモディティ表現を得る。
その後、ユーザからの問い合わせに応じて、テキストと画像チャンネルからそれぞれ候補証拠を検索し、それらをクロスモーダル検索レベルに集約する。
最後に,共同モダリティ検索結果に基づいて,VLMに最終応答を生成するよう促す。
実験の結果,本手法は視覚文書質問応答タスクにおいて,純粋ビジョンに基づくRAGよりも有意に優れていた。
本稿では,複雑な文書視覚質問応答システム(VQA)の性能向上のために,共同モダリティ情報を統一的にRAGフレームワークに統合することが効果的であることを示す。
関連論文リスト
- SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation [5.458935851230595]
テキストおよび視覚的検索・拡張生成(RAG)システムを強化した新しいアプローチであるSCANを提案する。
SCANは、ドキュメントを連続的なコンポーネントをカバーする一貫性のある領域に分割する、粗い粒度のセマンティックアプローチを使用する。
英語と日本語のデータセットを対象とした実験の結果、SCANの適用により、エンドツーエンドのRAG性能が最大9.0%向上し、ビジュアルRAG性能が最大6.4%向上することが示された。
論文 参考訳(メタデータ) (2025-05-20T14:03:24Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文 参考訳(メタデータ) (2025-04-14T01:50:33Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。