論文の概要: Beyond Bag-of-Patches: Learning Global Layout via Textual Supervision for Late-Interaction Visual Document Retrieval
- arxiv url: http://arxiv.org/abs/2605.08421v1
- Date: Fri, 08 May 2026 19:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.631344
- Title: Beyond Bag-of-Patches: Learning Global Layout via Textual Supervision for Late-Interaction Visual Document Retrieval
- Title(参考訳): Bag-of-Patchesを超えて: 遅延対話型ビジュアルドキュメント検索のためのテキストスーパービジョンによるグローバルレイアウト学習
- Authors: Pascal Tilli, Mohsen Mesgar,
- Abstract要約: ローカルなパッチ表現をグローバルなレイアウト埋め込みで拡張するマルチモーダルエンコーダを提案する。
4つのViDoRe-v2データセットにわたって、私たちのモデルは、アーキテクチャ的に比較可能な最強のColPali/ColQwenベースラインを、+2.4 nDCG@5と+2.3 MAP@5で改善します。
- 参考スコア(独自算出の注目度): 11.04537992389384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Document Retrieval (VDR) models mostly rely on late interaction architectures, in which documents are represented by a set of local patch embeddings and then matched against query tokens. While efficient, this architecture prioritizes local similarity over global layout structure of documents to estimate relevancy between documents and query. In practice, this leads to errors as relevance originates from layout structure of documents with heterogeneous layouts combining figures, tables, and text. We make document layout learnable without changing inference. We propose a multimodal encoder that augments local patch representations with a global layout embedding, trained via textual descriptions encoding document layout information. Across four ViDoRe-v2 datasets, our model improves over the strongest architecturally comparable ColPali/ColQwen baseline by +2.4 nDCG@5 and +2.3 MAP@5, with statistically significant per-dataset gains over ColQwen.
- Abstract(参考訳): Visual Document Retrieval(VDR)モデルは、ドキュメントをローカルなパッチの埋め込みセットで表現し、クエリトークンにマッチする、遅延インタラクションアーキテクチャに依存している。
効率的ながら、このアーキテクチャは文書とクエリの関連性を推定するために、文書のグローバルなレイアウト構造よりも局所的な類似性を優先する。
実際には、関連性は、図形、表、テキストを組み合わせた不均一なレイアウトを持つドキュメントのレイアウト構造に由来するため、エラーにつながる。
推論を変更することなく、文書レイアウトを学習可能にします。
本稿では,局所的なパッチ表現をグローバルなレイアウト埋め込みで拡張するマルチモーダルエンコーダを提案する。
4つのViDoRe-v2データセットにわたって、我々のモデルは、アーキテクチャ的に比較可能な最強のColPali/ColQwenベースラインを+2.4 nDCG@5と+2.3 MAP@5で改善し、ColQwenよりも統計的に有意なデータセット当たりのゲインを得た。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。