論文の概要: ColMate: Contrastive Late Interaction and Masked Text for Multimodal Document Retrieval
- arxiv url: http://arxiv.org/abs/2511.00903v1
- Date: Sun, 02 Nov 2025 11:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.986805
- Title: ColMate: Contrastive Late Interaction and Masked Text for Multimodal Document Retrieval
- Title(参考訳): ColMate:マルチモーダル文書検索のためのコントラストラトインタラクションとマスケテキスト
- Authors: Ahmed Masry, Megh Thakkar, Patrice Bechard, Sathwik Tejaswi Madhusudhan, Rabiul Awal, Shambhavi Mishra, Akshay Kalkunte Suresh, Srivatsava Daruru, Enamul Hoque, Spandana Gella, Torsten Scholak, Sai Rajeswar,
- Abstract要約: ColMateはマルチモーダル表現学習と文書検索のギャップを埋めるドキュメント検索モデルである。
ColMateはViDoRe V2ベンチマークで既存の検索モデルよりも3.61%改善されている。
- 参考スコア(独自算出の注目度): 21.39502089420643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation has proven practical when models require specialized knowledge or access to the latest data. However, existing methods for multimodal document retrieval often replicate techniques developed for text-only retrieval, whether in how they encode documents, define training objectives, or compute similarity scores. To address these limitations, we present ColMate, a document retrieval model that bridges the gap between multimodal representation learning and document retrieval. ColMate utilizes a novel OCR-based pretraining objective, a self-supervised masked contrastive learning objective, and a late interaction scoring mechanism more relevant to multimodal document structures and visual characteristics. ColMate obtains 3.61% improvements over existing retrieval models on the ViDoRe V2 benchmark, demonstrating stronger generalization to out-of-domain benchmarks.
- Abstract(参考訳): 検索強化世代は、モデルが専門知識を必要とする場合や最新のデータにアクセスする場合、実用的であることが証明されている。
しかし、既存のマルチモーダル文書検索方法は、文書のエンコード方法、トレーニング目標の定義方法、類似度スコアの計算方法など、テキストのみの検索のために開発されたテクニックを複製することが多い。
これらの制約に対処するため,マルチモーダル表現学習と文書検索のギャップを埋める文書検索モデルColMateを提案する。
ColMateは、新しいOCRベースの事前学習目標、自己教師付きマスク付きコントラスト学習目標、マルチモーダル文書構造と視覚特性により関係のある遅延相互作用スコアリングメカニズムを利用する。
ColMateは、ViDoRe V2ベンチマークで既存の検索モデルよりも3.61%改善されており、外部ベンチマークへのより強力な一般化を実証している。
関連論文リスト
- Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research [31.973886754355547]
Doc-Researcherは、テキストのみ、ビジョンのみ、ハイブリッドパラダイム間のギャップを埋める統一システムである。
マルチモーダル,マルチホップ,マルチドキュメント,マルチターンディープリサーチの最初のベンチマークであるM4DocBenchを紹介する。
Doc-Researcherの精度は50.6%で、最先端のベースラインよりも3.4倍高い。
論文 参考訳(メタデータ) (2025-10-24T16:07:54Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering [3.6799953119508735]
本稿では,意味表現を拡張化するためのメカニズムを導入することで,マルチモーダルな教科書質問応答手法を提案する。
我々のモデルであるJETRTQA(Joint Embedding Training With Ranking Supervision for Textbook Question Answering)は、検索ジェネレータアーキテクチャ上に構築されたマルチモーダル学習フレームワークである。
本手法をCK12-QAデータセット上で評価し,情報化文書と無関係文書の識別を著しく改善することを示す。
論文 参考訳(メタデータ) (2025-05-17T13:23:54Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval [10.770281363775148]
生成検索における文書指向コントラスト学習(DOGR)の活用という,新規で汎用的な生成検索フレームワークを提案する。
クエリとドキュメントの関係を,直接的なインタラクションを通じて包括的にキャプチャする,2段階の学習戦略を採用している。
意味表現の学習を促進するために、否定的サンプリング手法とそれに対応するコントラスト学習目的を実装した。
論文 参考訳(メタデータ) (2025-02-11T03:25:42Z) - Continual Learning for Generative Retrieval over Dynamic Corpora [115.79012933205756]
生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子(ドシデクス)を直接予測する。
クエリに応答する能力を保ちながら、新しいドキュメントをインクリメンタルにインデックスする能力は、GRモデルを適用する上で不可欠である。
我々は,CLEVERモデルのための新しい連続学習モデルを提案し,GRのための連続学習に2つの大きな貢献をした。
論文 参考訳(メタデータ) (2023-08-29T01:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。