論文の概要: Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction
- arxiv url: http://arxiv.org/abs/2505.07730v1
- Date: Mon, 12 May 2025 16:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.493414
- Title: Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction
- Title(参考訳): 遅延相互作用による視覚的文書検索における再現性, 再現性, 考察
- Authors: Jingfen Qiao, Jia-Huei Ju, Xinyu Ma, Evangelos Kanoulas, Andrew Yates,
- Abstract要約: Visual Document Retrieval (VDR)は、文書イメージを直接エンコードして検索することに焦点を当てた、新たな研究分野である。
近年のVDRの進歩はColPaliによって導入され、遅延相互作用機構による検索効率を大幅に改善した。
本研究は,視覚的文書検索の文脈におけるクエリ・パッチマッチングに着目して,遅延インタラクションの具体的な貢献について検討する。
- 参考スコア(独自算出の注目度): 22.41501622100226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Document Retrieval (VDR) is an emerging research area that focuses on encoding and retrieving document images directly, bypassing the dependence on Optical Character Recognition (OCR) for document search. A recent advance in VDR was introduced by ColPali, which significantly improved retrieval effectiveness through a late interaction mechanism. ColPali's approach demonstrated substantial performance gains over existing baselines that do not use late interaction on an established benchmark. In this study, we investigate the reproducibility and replicability of VDR methods with and without late interaction mechanisms by systematically evaluating their performance across multiple pre-trained vision-language models. Our findings confirm that late interaction yields considerable improvements in retrieval effectiveness; however, it also introduces computational inefficiencies during inference. Additionally, we examine the adaptability of VDR models to textual inputs and assess their robustness across text-intensive datasets within the proposed benchmark, particularly when scaling the indexing mechanism. Furthermore, our research investigates the specific contributions of late interaction by looking into query-patch matching in the context of visual document retrieval. We find that although query tokens cannot explicitly match image patches as in the text retrieval scenario, they tend to match the patch contains visually similar tokens or their surrounding patches.
- Abstract(参考訳): Visual Document Retrieval (VDR)は、文書検索における光学文字認識(OCR)への依存を回避し、文書画像を直接エンコードして検索することに焦点を当てた、新たな研究分野である。
近年のVDRの進歩はColPaliによって導入され、遅延相互作用機構による検索効率を大幅に改善した。
ColPaliのアプローチは、確立されたベンチマークで遅延インタラクションを使用しない既存のベースラインに対して、大幅なパフォーマンス向上を示した。
本研究では,複数の事前学習型視覚言語モデルを用いて,VDR手法の再現性と再現性について検討した。
本研究は,遅延相互作用が検索効率を大幅に向上させることを確認したが,推論時の計算不効率ももたらした。
さらに、VDRモデルのテキスト入力への適応性について検討し、特にインデックス化機構のスケーリングにおいて、提案したベンチマーク内のテキスト集約データセット間のロバスト性を評価する。
さらに,視覚的文書検索の文脈におけるクエリ・パッチマッチングに着目し,遅延インタラクションの具体的な貢献について検討した。
クエリトークンは、テキスト検索のシナリオのように、イメージパッチに明示的にマッチすることができないが、パッチにマッチする傾向にある。
関連論文リスト
- Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval [38.569818461453394]
Retrieval-Augmented Generation (RAG)は、外部文書の応答をグラウンド化するための技術である。
従来のRAGシステムは、スキャンされた文書をテキストに最初に処理するために光学文字認識(OCR)に依存していた。
ColPaliのような近年の視覚言語アプローチでは、ドキュメントの直接的な視覚的埋め込みを提案しており、OCRの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-08T21:54:02Z) - Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。
本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。
我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文 参考訳(メタデータ) (2025-04-16T14:03:24Z) - Exploring Information Retrieval Landscapes: An Investigation of a Novel Evaluation Techniques and Comparative Document Splitting Methods [0.0]
本研究では, 教科書の構造的性質, 記事の簡潔さ, 小説の物語的複雑さについて, 明確な検索戦略が必要であることを示した。
オープンソースのモデルを用いて,質問対と回答対の包括的データセットを生成する新しい評価手法を提案する。
評価には、SequenceMatcher、BLEU、METEOR、BERT Scoreなどの重み付けされたスコアを使用して、システムの正確性と妥当性を評価する。
論文 参考訳(メタデータ) (2024-09-13T02:08:47Z) - Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor [4.35807211471107]
本研究では,検索強化言語モデルにおける検索情報圧縮のための2段階一貫性学習手法を提案する。
提案手法は複数のデータセットにまたがって実験的に検証され,質問応答タスクの精度と効率が顕著に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-04T12:43:23Z) - Beyond Relevance: Evaluate and Improve Retrievers on Perspective Awareness [56.42192735214931]
検索者は、ドキュメントとクエリ間のセマンティックな関連性に頼るだけでなく、ユーザクエリの背後にある微妙な意図や視点を認識することも期待されている。
本研究では,検索者がクエリの異なる視点を認識し,応答できるかどうかを検討する。
我々は,現在の検索者はクエリにおいて微妙に異なる視点に対する認識が限られており,特定の視点に偏りがあることを示す。
論文 参考訳(メタデータ) (2024-05-04T17:10:00Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。