論文の概要: ReAlign: Optimizing the Visual Document Retriever with Reasoning-Guided Fine-Grained Alignment
- arxiv url: http://arxiv.org/abs/2604.07419v1
- Date: Wed, 08 Apr 2026 14:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.465934
- Title: ReAlign: Optimizing the Visual Document Retriever with Reasoning-Guided Fine-Grained Alignment
- Title(参考訳): ReAlign: Reasoning-Guided Fine-Grained Alignmentによるビジュアルドキュメント検索の最適化
- Authors: Hao Yang, Yifan Ji, Zhipeng Xu, Zhenghao Liu, Yukun Yan, Zulong Chen, Shuo Wang, Yu Gu, Ge Yu,
- Abstract要約: ビジュアルドキュメント検索は、視覚的にリッチなコレクションからクエリに関連するドキュメントページの集合を検索することを目的としている。
既存の手法では、クエリやビジュアルページを共有埋め込み空間にエンコードするために、VLM(Vision-Language Models)を用いることが多い。
そこで我々は,Reasoning-Guided Alignment (ReAlign)を提案する。
- 参考スコア(独自算出の注目度): 28.897559367200376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual document retrieval aims to retrieve a set of document pages relevant to a query from visually rich collections. Existing methods often employ Vision-Language Models (VLMs) to encode queries and visual pages into a shared embedding space, which is then optimized via contrastive training. However, during visual document representation, localized evidence is usually scattered across complex document layouts, making it difficult for retrieval models to capture crucial cues for effective embedding learning. In this paper, we propose Reasoning-Guided Alignment (ReAlign), a method that enhances visual document retrieval by leveraging the reasoning capability of VLMs to provide fine-grained visual document descriptions as supervision signals for training. Specifically, ReAlign employs a superior VLM to identify query-related regions on a page and then generates a query-aware description grounding the cropped visual regions. The retriever is then trained using these region-focused descriptions to align the semantics between queries and visual documents by encouraging the document ranking distribution induced by the region-focused descriptions to match that induced by the original query. Experiments on diverse visually rich document retrieval benchmarks demonstrate that ReAlign consistently improves visual document retrieval performance on both in-domain and out-of-domain datasets, achieving up to 2% relative improvements. Moreover, the advantages of ReAlign generalize across different VLM backbones by guiding models to better focus their attention on critical visual cues for document representation. All code and datasets are available at https://github.com/NEUIR/ReAlign.
- Abstract(参考訳): ビジュアルドキュメント検索は、視覚的にリッチなコレクションからクエリに関連するドキュメントページの集合を検索することを目的としている。
既存の手法では、クエリやビジュアルページを共有埋め込み空間にエンコードするためにヴィジュアル・ランゲージ・モデル(VLM)を使用しており、コントラストトレーニングによって最適化される。
しかし、視覚的文書表現においては、局所的なエビデンスは通常、複雑な文書レイアウトに分散しており、効率的な埋め込み学習のための重要な手がかりを検索モデルが捉えることは困難である。
本稿では、VLMの推論能力を活用して、視覚文書検索を強化する手法であるReasoning-Guided Alignment(ReAlign)を提案する。
具体的には、ReAlignは優れたVLMを使用してページ上のクエリ関連領域を特定し、収穫された視覚領域を基盤としたクエリ対応記述を生成する。
次に、検索者は、これらの領域に着目した記述を用いて訓練を行い、クエリとビジュアルドキュメント間のセマンティクスを整合させる。
多様な視覚的にリッチなドキュメント検索ベンチマークの実験では、ReAlignはドメイン内とドメイン外の両方のデータセットにおけるビジュアルドキュメント検索性能を一貫して改善し、最大2%の相対的な改善を実現している。
さらに、ReAlignの利点は、異なるVLMバックボーンにまたがって一般化され、ドキュメント表現のための重要な視覚的手がかりにより注意を向けるモデルが導かれる。
すべてのコードとデータセットはhttps://github.com/NEUIR/ReAlign.comで入手できる。
関連論文リスト
- RegionRAG: Region-level Retrieval-Augumented Generation for Visually-Rich Documents [40.107303323097646]
Modelnameは、検索パラダイムをドキュメントレベルからリージョンレベルにシフトする、新しいフレームワークです。
6つのベンチマークの実験は、RereaRAGが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-10-31T08:00:32Z) - VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文 参考訳(メタデータ) (2025-04-14T01:50:33Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - VISA: Retrieval Augmented Generation with Visual Source Attribution [100.78278689901593]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。
本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。
本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文 参考訳(メタデータ) (2024-12-19T02:17:35Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - ColPali: Efficient Document Retrieval with Vision Language Models [15.369861972085136]
我々は、複数のドメイン、言語、実用的な設定にまたがる様々なページレベルの検索タスクからなるVisual Document Retrieval Benchmark ViDoReを紹介する。
現代のシステムの本質的な複雑さと性能上の欠点は、ドキュメントページのイメージを直接埋め込むことで文書検索を行うという新しい概念を動機付けている。
文書ページの画像から高品質なマルチベクトル埋め込みを生成するために訓練されたビジョン言語モデルColPaliをリリースする。
論文 参考訳(メタデータ) (2024-06-27T15:45:29Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。