論文の概要: CMRAG: Co-modality-based document retrieval and visual question answering
- arxiv url: http://arxiv.org/abs/2509.02123v1
- Date: Tue, 02 Sep 2025 09:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.979814
- Title: CMRAG: Co-modality-based document retrieval and visual question answering
- Title(参考訳): CMRAG:コモディティに基づく文書検索と視覚的質問応答
- Authors: Wang Chen, Guanqiang Qi, Weikang Li, Yang Li,
- Abstract要約: Retrieval-Augmented Generation (RAG) は文書質問応答タスクの中核となるパラダイムとなっている。
本稿では、テキストと画像を同時に利用して効率的な検索・生成を行うコモダリティに基づくRAGを提案する。
実験の結果,本手法は視覚文書質問応答タスクにおいて,純粋ビジョンに基づくRAGよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 7.9679870806757185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become a core paradigm in document question answering tasks. However, existing methods have limitations when dealing with multimodal documents: one category of methods relies on layout analysis and text extraction, which can only utilize explicit text information and struggle to capture images or unstructured content; the other category treats document segmentation as visual input and directly passes it to visual language models (VLMs) for processing, yet it ignores the semantic advantages of text, leading to suboptimal generation results. This paper proposes co-modality-based RAG (CMRAG), which can simultaneously leverage text and images for efficient retrieval and generation. Specifically, we first perform structured parsing on documents to obtain co-modality representations of text segments and image regions. Subsequently, in response to user queries, we retrieve candidate evidence from text and image channels, respectively, and aggregate the results at the cross-modal retrieval level. Finally, we prompt the VLM to generate the final response based on the co-modality retrieval results. Experiments demonstrate that our method significantly outperforms pure-vision-based RAG in visual document question answering tasks. The findings of this paper show that integrating co-modality information into the RAG framework in a unified manner is an effective approach to improving the performance of complex document visual question-answering (VQA) systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は文書質問応答タスクの中核となるパラダイムとなっている。
しかし、既存の手法では、レイアウト解析やテキスト抽出に制限があり、明示的なテキスト情報しか利用できず、画像や構造化されていないコンテンツをキャプチャするのに苦労する。
本稿では,コモダリティに基づくRAG(CMRAG)を提案する。
具体的には、まず文書の構造化解析を行い、テキストセグメントと画像領域のコモディティ表現を得る。
その後、ユーザからの問い合わせに応じて、テキストと画像チャンネルからそれぞれ候補証拠を検索し、それらをクロスモーダル検索レベルに集約する。
最後に,共同モダリティ検索結果に基づいて,VLMに最終応答を生成するよう促す。
実験の結果,本手法は視覚文書質問応答タスクにおいて,純粋ビジョンに基づくRAGよりも有意に優れていた。
本稿では,複雑な文書視覚質問応答システム(VQA)の性能向上のために,共同モダリティ情報を統一的にRAGフレームワークに統合することが効果的であることを示す。
関連論文リスト
- Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval [1.160208922584163]
モーダリティを意識した知識グラフを用いた多モーダル質問応答のためのモーダリティ・アウェア・ハイブリッド検索アーキテクチャ(MAHA)を提案する。
MAHAは、密接なベクトル検索と構造化グラフトラバーサルを統合し、知識グラフはクロスモーダルなセマンティクスと関係を符号化する。
我々の研究は、非構造化マルチモーダルデータに対するモダリティを考慮した推論を可能にすることにより、RAGシステムを進化させるスケーラブルで解釈可能な検索フレームワークを確立する。
論文 参考訳(メタデータ) (2025-10-16T11:55:24Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MHier-RAG: Multi-Modal RAG for Visual-Rich Document Question-Answering via Hierarchical and Multi-Granularity Reasoning [5.55667293255701]
マルチモーダルな長文文書問合せタスクは、複数のページに分散したマルチモーダルなエビデンスを特定し、統合することを目的としている。
既存の手法はLVLM(Large Vision-Language Model)とRAG(Retrieval-Augmented Generation)に分類できる。
MHier-RAGと呼ばれる新しいマルチモーダルRAGモデルが提案され、テキスト情報と視覚情報の両方を長距離ページにわたって活用した。
論文 参考訳(メタデータ) (2025-08-01T12:22:53Z) - SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation [5.458935851230595]
テキストおよび視覚的検索・拡張生成(RAG)システムを強化した新しいアプローチであるSCANを提案する。
SCANは、ドキュメントを連続的なコンポーネントをカバーする一貫性のある領域に分割する、粗い粒度のセマンティックアプローチを使用する。
英語と日本語のデータセットを対象とした実験の結果、SCANの適用により、エンドツーエンドのRAG性能が最大9.0%向上し、ビジュアルRAG性能が最大6.4%向上することが示された。
論文 参考訳(メタデータ) (2025-05-20T14:03:24Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文 参考訳(メタデータ) (2025-04-14T01:50:33Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。