論文の概要: Spatially-Grounded Document Retrieval via Patch-to-Region Relevance Propagation
- arxiv url: http://arxiv.org/abs/2512.02660v1
- Date: Tue, 02 Dec 2025 11:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.844792
- Title: Spatially-Grounded Document Retrieval via Patch-to-Region Relevance Propagation
- Title(参考訳): Patch-to-Region Relevance Propagationによる空間的文書検索
- Authors: Agathoklis Georgiou,
- Abstract要約: ColPaliのような視覚言語モデル(VLM)は、ページを画像として埋め込み、クエリトークンとビジュアルパッチの微妙な類似性を計算することによって、最先端の文書検索を実現する。
我々はこれらのパラダイムを統一するハイブリッドアーキテクチャを提案し、CorPaliのパッチレベルの類似度スコアをOCR抽出領域上の空間関連度フィルタとして使用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) like ColPali achieve state-of-the-art document retrieval by embedding pages as images and computing fine-grained similarity between query tokens and visual patches. However, they return entire pages rather than specific regions, limiting utility for retrieval-augmented generation (RAG) where precise context is paramount. Conversely, OCR-based systems extract structured text with bounding box coordinates but lack semantic grounding for relevance assessment. We propose a hybrid architecture that unifies these paradigms: using ColPali's patch-level similarity scores as spatial relevance filters over OCR-extracted regions. We formalize the coordinate mapping between vision transformer patch grids and OCR bounding boxes, introduce intersection metrics for relevance propagation, and establish theoretical bounds on retrieval precision. Our approach operates at inference time without additional training. We release Snappy, an open-source implementation demonstrating practical applicability, with empirical evaluation ongoing.
- Abstract(参考訳): ColPaliのような視覚言語モデル(VLM)は、ページを画像として埋め込み、クエリトークンとビジュアルパッチの微妙な類似性を計算することによって、最先端の文書検索を実現する。
しかし、特定の領域ではなくページ全体を返却し、正確なコンテキストが最重要である検索拡張生成(RAG)のユーティリティを制限する。
逆に、OCRベースのシステムは、有界なボックス座標を持つ構造化テキストを抽出するが、関連性評価のセマンティックグラウンドが欠如している。
我々はこれらのパラダイムを統一するハイブリッドアーキテクチャを提案し、CorPaliのパッチレベルの類似度スコアをOCR抽出領域上の空間関連度フィルタとして使用した。
我々は、視覚変換器のパッチグリッドとOCR境界ボックスの座標マッピングを形式化し、関連性伝播のための交差メトリクスを導入し、検索精度に関する理論的バウンダリを確立する。
私たちのアプローチは、追加のトレーニングなしで推論時に動作します。
実践的な適用性を示すオープンソース実装であるSnappyをリリースし、実証的な評価を継続しています。
関連論文リスト
- Structured Context Learning for Generic Event Boundary Detection [34.30144454487081]
ジェネリックイベント境界検出は、人間がイベント境界として知覚するビデオの瞬間を特定することを目的としている。
本稿では,構造化文脈学習(Structured Context Learning)と呼ばれる,この課題に対処する新しい手法を提案する。
我々のアプローチはエンドツーエンドのトレーニング可能で柔軟性があり、GRU、LSTM、Transformerといった特定の時間モデルに限定されていません。
論文 参考訳(メタデータ) (2025-11-29T13:06:52Z) - Region-Point Joint Representation for Effective Trajectory Similarity Learning [25.664203648334563]
textbfRePoは、textbfRegion-wiseと textbfPoint-wiseの機能をエンコードして、空間コンテキストと微細な移動パターンの両方をキャプチャする新しい方法である。
実験結果から、RePoはSOTAベースラインよりも22.2%の精度向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-17T08:28:18Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - RegionRAG: Region-level Retrieval-Augumented Generation for Visually-Rich Documents [40.107303323097646]
Modelnameは、検索パラダイムをドキュメントレベルからリージョンレベルにシフトする、新しいフレームワークです。
6つのベンチマークの実験は、RereaRAGが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-10-31T08:00:32Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Class-Agnostic Region-of-Interest Matching in Document Images [5.0512633844625405]
本稿では,「クラス非依存領域-関心のマッチング」という新しいタスクを定義する。
カスタマイズされたリージョンを、フレキシブルで効率よく、マルチグラニュラで、オープンな方法でマッチングすることを目指している。
実環境下での難易度を3段階に設定したベンチマークRoI-Matching-Benchを構築した。
また,シアムネットワークを用いてマルチレベルの特徴を抽出する新しいフレームワークRoI-Matcherを提案する。
論文 参考訳(メタデータ) (2025-06-26T07:09:19Z) - Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction [22.41501622100226]
Visual Document Retrieval (VDR)は、文書イメージを直接エンコードして検索することに焦点を当てた、新たな研究分野である。
近年のVDRの進歩はColPaliによって導入され、遅延相互作用機構による検索効率を大幅に改善した。
本研究は,視覚的文書検索の文脈におけるクエリ・パッチマッチングに着目して,遅延インタラクションの具体的な貢献について検討する。
論文 参考訳(メタデータ) (2025-05-12T16:37:47Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。