論文の概要: VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents
- arxiv url: http://arxiv.org/abs/2504.09795v1
- Date: Mon, 14 Apr 2025 01:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 02:16:09.309243
- Title: VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents
- Title(参考訳): VDocRAG:ビジュアルリッチなドキュメントを検索可能な生成
- Authors: Ryota Tanaka, Taichi Iki, Taku Hasegawa, Kyosuke Nishida, Kuniko Saito, Jun Suzuki,
- Abstract要約: 本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
- 参考スコア(独自算出の注目度): 30.012487475552575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to develop a retrieval-augmented generation (RAG) framework that answers questions over a corpus of visually-rich documents presented in mixed modalities (e.g., charts, tables) and diverse formats (e.g., PDF, PPTX). In this paper, we introduce a new RAG framework, VDocRAG, which can directly understand varied documents and modalities in a unified image format to prevent missing information that occurs by parsing documents to obtain text. To improve the performance, we propose novel self-supervised pre-training tasks that adapt large vision-language models for retrieval by compressing visual information into dense token representations while aligning them with textual content in documents. Furthermore, we introduce OpenDocVQA, the first unified collection of open-domain document visual question answering datasets, encompassing diverse document types and formats. OpenDocVQA provides a comprehensive resource for training and evaluating retrieval and question answering models on visually-rich documents in an open-domain setting. Experiments show that VDocRAG substantially outperforms conventional text-based RAG and has strong generalization capability, highlighting the potential of an effective RAG paradigm for real-world documents.
- Abstract(参考訳): 本研究では,多種多様な形式(例えば, PDF, PPTX)と多種多様な形式(例えば, 図表, 表, 表)で表される視覚に富んだ文書のコーパスに答える検索強化世代(RAG)フレームワークを開発することを目的とする。
本稿では,新たなRAGフレームワークであるVDocRAGを導入する。このフレームワークは,文書を解析してテキストを取得することによって発生する欠落情報を防止するために,統一された画像形式で,さまざまな文書やモダリティを直接理解することができる。
そこで本稿では,視覚情報を高密度なトークン表現に圧縮し,文書中のテキスト内容と整合させて,大規模視覚言語モデルを検索に適応させる,自己指導型事前学習タスクを提案する。
さらに,オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションであるOpenDocVQAについても紹介する。
OpenDocVQAは、オープンドメイン設定で視覚的にリッチなドキュメント上での検索と質問応答モデルのトレーニングと評価のための包括的なリソースを提供する。
実験により、VDocRAGは従来のテキストベースのRAGよりも大幅に優れ、強力な一般化能力を有し、実世界の文書に有効なRAGパラダイムの可能性を強調した。
関連論文リスト
- Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。
提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-14T19:19:26Z) - BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations [2.9798896492745537]
文書質問回答(QA)のための統合データセットを提案する。
情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。
一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
論文 参考訳(メタデータ) (2025-01-06T21:46:22Z) - VISA: Retrieval Augmented Generation with Visual Source Attribution [100.78278689901593]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。
本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。
本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文 参考訳(メタデータ) (2024-12-19T02:17:35Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - ColPali: Efficient Document Retrieval with Vision Language Models [15.369861972085136]
我々は、複数のドメイン、言語、実用的な設定にまたがる様々なページレベルの検索タスクからなるVisual Document Retrieval Benchmark ViDoReを紹介する。
現代のシステムの本質的な複雑さと性能上の欠点は、ドキュメントページのイメージを直接埋め込むことで文書検索を行うという新しい概念を動機付けている。
文書ページの画像から高品質なマルチベクトル埋め込みを生成するために訓練されたビジョン言語モデルColPaliをリリースする。
論文 参考訳(メタデータ) (2024-06-27T15:45:29Z) - A Survey of Generative Information Retrieval [25.1249210843116]
Generative Retrieval (GR) は、情報検索における新たなパラダイムであり、従来のクエリ処理やドキュメントの再ランクを必要とせずに、生成モデルを利用してクエリを関連するドキュメント識別子(DocID)にマップする。
この調査はGRの総合的な概要を提供し、主要な開発、索引付けと検索戦略、課題を強調している。
論文 参考訳(メタデータ) (2024-06-03T10:59:33Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。