論文の概要: MoLoRAG: Bootstrapping Document Understanding via Multi-modal Logic-aware Retrieval
- arxiv url: http://arxiv.org/abs/2509.07666v1
- Date: Sat, 06 Sep 2025 00:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.305139
- Title: MoLoRAG: Bootstrapping Document Understanding via Multi-modal Logic-aware Retrieval
- Title(参考訳): MoLoRAG:マルチモーダル論理認識検索による文書理解のブートストラップ
- Authors: Xixi Wu, Yanchao Tan, Nan Hou, Ruiyang Zhang, Hong Cheng,
- Abstract要約: MoLoRAGはマルチモーダル・マルチページ文書理解のための論理認識検索フレームワークである。
意味論と論理的関連性を組み合わせて、より正確な検索を提供する。
4つのDocQAデータセットの実験では、平均的な9.68%の精度の向上が示されている。
- 参考スコア(独自算出の注目度): 17.50612953979537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Understanding is a foundational AI capability with broad applications, and Document Question Answering (DocQA) is a key evaluation task. Traditional methods convert the document into text for processing by Large Language Models (LLMs), but this process strips away critical multi-modal information like figures. While Large Vision-Language Models (LVLMs) address this limitation, their constrained input size makes multi-page document comprehension infeasible. Retrieval-augmented generation (RAG) methods mitigate this by selecting relevant pages, but they rely solely on semantic relevance, ignoring logical connections between pages and the query, which is essential for reasoning. To this end, we propose MoLoRAG, a logic-aware retrieval framework for multi-modal, multi-page document understanding. By constructing a page graph that captures contextual relationships between pages, a lightweight VLM performs graph traversal to retrieve relevant pages, including those with logical connections often overlooked. This approach combines semantic and logical relevance to deliver more accurate retrieval. After retrieval, the top-$K$ pages are fed into arbitrary LVLMs for question answering. To enhance flexibility, MoLoRAG offers two variants: a training-free solution for easy deployment and a fine-tuned version to improve logical relevance checking. Experiments on four DocQA datasets demonstrate average improvements of 9.68% in accuracy over LVLM direct inference and 7.44% in retrieval precision over baselines. Codes and datasets are released at https://github.com/WxxShirley/MoLoRAG.
- Abstract(参考訳): Document Understandingは幅広いアプリケーションを持つ基本的なAI機能であり、DocQA(DocQA)は重要な評価タスクである。
従来の手法では、文書をLLM(Large Language Models)によって処理するためにテキストに変換するが、このプロセスは数字のような重要なマルチモーダル情報を除去する。
LVLM(Large Vision-Language Models)はこの制限に対処するが、その制約された入力サイズは多ページ文書の理解を不可能にする。
Retrieval-augmented Generation (RAG)メソッドは、関連するページを選択することでこれを緩和するが、ページとクエリ間の論理的接続を無視し、意味的関連性にのみ依存する。
そこで本研究では,マルチモーダル・マルチページ文書理解のための論理型検索フレームワークであるMoLoRAGを提案する。
ページ間のコンテキスト関係をキャプチャするページグラフを構築することにより、軽量なVLMは、しばしば見過ごされる論理的接続を持つページを含む、関連するページを検索するためのグラフトラバーサルを実行する。
このアプローチは意味論と論理的関連性を組み合わせて、より正確な検索を提供する。
検索後、上位$K$ページは質問応答のために任意のLVLMにフィードされる。
柔軟性を高めるため、MoLoRAGは、簡単にデプロイできるトレーニング不要のソリューションと、論理的関連性チェックを改善するための微調整されたバージョンの2つのバリエーションを提供している。
4つのDocQAデータセットの実験では、LVLMの直接推定よりも平均で9.68%、ベースラインよりも検索精度が7.44%向上した。
コードとデータセットはhttps://github.com/WxxShirley/MoLoRAGで公開されている。
関連論文リスト
- MMRAG-DocQA: A Multi-Modal Retrieval-Augmented Generation Method for Document Question-Answering with Hierarchical Index and Multi-Granularity Retrieval [4.400088031376775]
本研究の目的は,質問理解と回答生成のために,複数のページに分散したマルチモーダルエビデンスを特定し,統合することである。
MMRAG-DocQAと呼ばれる新しいマルチモーダルRAGモデルが提案され、テキスト情報と視覚情報の両方を長距離ページにわたって活用した。
共同類似性評価と大規模言語モデル(LLM)に基づく再分類により,多粒度意味検索法が提案された。
論文 参考訳(メタデータ) (2025-08-01T12:22:53Z) - SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement [17.272061289197342]
Document Visual Question Answering (DocVQA)は実用的で難しいタスクである。
最近の手法は、同様のRAG(Retrieval Augmented Generation)パイプラインに従う。
DocVQA用の拡張フレームワークであるSimpleDocを紹介します。
論文 参考訳(メタデータ) (2025-06-16T22:15:58Z) - Doc-CoB: Enhancing Multi-Modal Document Understanding with Visual Chain-of-Boxes Reasoning [12.17399365931]
既存の1パスのMLLMは、クエリの関連性を考慮せずに、ドキュメントイメージ全体を処理します。
そこで我々は,ヒトの視覚的推論をMLLMに組み込むシンプルな効果メカニズムであるDoc-CoBを紹介した。
提案手法では,クエリに最も関連性の高い領域群を自律的に選択し,さらに理解するためにそれらに注意を集中することができる。
論文 参考訳(メタデータ) (2025-05-24T08:53:05Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning [0.0]
既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。