論文の概要: Nemotron ColEmbed V2: Top-Performing Late Interaction embedding models for Visual Document Retrieval
- arxiv url: http://arxiv.org/abs/2602.03992v1
- Date: Tue, 03 Feb 2026 20:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.263588
- Title: Nemotron ColEmbed V2: Top-Performing Late Interaction embedding models for Visual Document Retrieval
- Title(参考訳): Nemotron ColEmbed V2: Visual Document Retrievalのためのトップパフォーマンス遅延インタラクション埋め込みモデル
- Authors: Gabriel de Souza P. Moreira, Ronay Ak, Mengyao Xu, Oliver Holworthy, Benedikt Schifferer, Zhiding Yu, Yauhen Babakhin, Radek Osmulski, Jiarui Cai, Ryan Chesler, Bo Liu, Even Oldridge,
- Abstract要約: ビジュアルドキュメント検索の需要が高まっているため,ViDoReベンチマークで最先端のパフォーマンスを実現するモデル群であるNemotron ColEmbed V2を導入する。
データ処理、トレーニング、ポストトレーニングにまたがる主要なテクニックについて説明する。
- 参考スコア(独自算出の注目度): 19.23621110865551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems have been popular for generative applications, powering language models by injecting external knowledge. Companies have been trying to leverage their large catalog of documents (e.g. PDFs, presentation slides) in such RAG pipelines, whose first step is the retrieval component. Dense retrieval has been a popular approach, where embedding models are used to generate a dense representation of the user query that is closer to relevant content embeddings. More recently, VLM-based embedding models have become popular for visual document retrieval, as they preserve visual information and simplify the indexing pipeline compared to OCR text extraction. Motivated by the growing demand for visual document retrieval, we introduce Nemotron ColEmbed V2, a family of models that achieve state-of-the-art performance on the ViDoRe benchmarks. We release three variants - with 3B, 4B, and 8B parameters - based on pre-trained VLMs: NVIDIA Eagle 2 with Llama 3.2 3B backbone, Qwen3-VL-4B-Instruct and Qwen3-VL-8B-Instruct, respectively. The 8B model ranks first on the ViDoRe V3 leaderboard as of February 03, 2026, achieving an average NDCG@10 of 63.42. We describe the main techniques used across data processing, training, and post-training - such as cluster-based sampling, hard-negative mining, bidirectional attention, late interaction, and model merging - that helped us build our top-performing models. We also discuss compute and storage engineering challenges posed by the late interaction mechanism and present experiments on how to balance accuracy and storage with lower dimension embeddings.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、言語モデルに外部知識を注入することで、生成的応用に人気がある。
企業は、ドキュメントの大規模なカタログ(PDF、プレゼンテーションスライドなど)をRAGパイプラインで活用しようとしており、その最初のステップは検索コンポーネントである。
デンス検索は、埋め込みモデルを使用して、関連するコンテンツ埋め込みに近いユーザクエリの密度の高い表現を生成する、一般的なアプローチである。
近年,視覚情報の保存や,OCRテキスト抽出と比較してインデクシングパイプラインの簡素化などにより,VLMベースの埋め込みモデルがビジュアル文書検索に人気となっている。
ビジュアルドキュメント検索の需要が高まっているため,ViDoReベンチマークで最先端のパフォーマンスを実現するモデル群であるNemotron ColEmbed V2を導入する。
3B, 4B, 8Bパラメータを持つ3つの変種 – 事前訓練されたVLM – Llama 3.2 3Bバックボーンを持つNVIDIA Eagle 2, Qwen3-VL-4B-インストラクト, Qwen3-VL-8B-インストラクト – をそれぞれリリースする。
8Bモデルは2026年2月03日時点でViDoRe V3のリーダーボードで1位となり、平均NDCG@10は63.42である。
データ処理、トレーニング、ポストトレーニングなど、クラスタベースのサンプリング、ハードネガティブなマイニング、双方向の注意、遅延インタラクション、モデルマージといった、最高のパフォーマンスモデルの構築に役立ちます。
また、遅延相互作用機構による計算・記憶工学の課題についても論じ、低次元埋め込みと精度と記憶のバランスをとるための実験を行った。
関連論文リスト
- Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model [20.055106781946417]
llama-nemoretriever-colembedは、複数のベンチマークで最先端のパフォーマンスを提供する統一されたテキストイメージ検索モデルである。
3Bモデルは、ViDoRe V1でNDCG@5 91.0、ViDoRe V2で63.5、2025年6月27日現在、両リーダーボードで第1位となっている。
論文 参考訳(メタデータ) (2025-07-07T22:20:04Z) - Revisiting Birds Eye View Perception Models with Frozen Foundation Models: DINOv2 and Metric3Dv2 [6.42131197643513]
我々は,Metric3Dv2の深度情報を,Simple-BEVアーキテクチャに組み込まれたPseudoLiDARポイントクラウドとして,革新的な応用を紹介した。
この統合により、カメラのみのモデルに比べて+3 IoUが改善される。
論文 参考訳(メタデータ) (2025-01-14T13:51:14Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。
モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。
学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。