論文の概要: Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model
- arxiv url: http://arxiv.org/abs/2507.05513v1
- Date: Mon, 07 Jul 2025 22:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.370576
- Title: Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model
- Title(参考訳): Llama Nemoretriever氏が要約:トップパフォーマンステキスト画像検索モデル
- Authors: Mengyao Xu, Gabriel Moreira, Ronay Ak, Radek Osmulski, Yauhen Babakhin, Zhiding Yu, Benedikt Schifferer, Even Oldridge,
- Abstract要約: llama-nemoretriever-colembedは、複数のベンチマークで最先端のパフォーマンスを提供する統一されたテキストイメージ検索モデルである。
3Bモデルは、ViDoRe V1でNDCG@5 91.0、ViDoRe V2で63.5、2025年6月27日現在、両リーダーボードで第1位となっている。
- 参考スコア(独自算出の注目度): 20.055106781946417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Motivated by the growing demand for retrieval systems that operate across modalities, we introduce llama-nemoretriever-colembed, a unified text-image retrieval model that delivers state-of-the-art performance across multiple benchmarks. We release two model variants, 1B and 3B. The 3B model achieves state of the art performance, scoring NDCG@5 91.0 on ViDoRe V1 and 63.5 on ViDoRe V2, placing first on both leaderboards as of June 27, 2025. Our approach leverages the NVIDIA Eagle2 Vision-Language model (VLM), modifies its architecture by replacing causal attention with bidirectional attention, and integrates a ColBERT-style late interaction mechanism to enable fine-grained multimodal retrieval in a shared embedding space. While this mechanism delivers superior retrieval accuracy, it introduces trade-offs in storage and efficiency. We provide a comprehensive analysis of these trade-offs. Additionally, we adopt a two-stage training strategy to enhance the model's retrieval capabilities.
- Abstract(参考訳): モダリティにまたがる検索システムに対する需要が高まっているため,複数のベンチマークにまたがって最先端のパフォーマンスを提供する統一テキスト画像検索モデルであるllama-nemoretriever-colembedを導入する。
1B と 3B の 2 つのモデル変種をリリースする。
3Bモデルは最先端のパフォーマンスを達成し、ViDoRe V1でNDCG@5 91.0、ViDoRe V2で63.5、2025年6月27日に両リーダーボードで初となる。
提案手法はNVIDIA Eagle2 Vision-Language Model(VLM)を活用し,因果的注意を双方向の注意に置き換えることでアーキテクチャを改良し,ColBERTスタイルの遅延相互作用機構を統合し,共有埋め込み空間における微細なマルチモーダル検索を実現する。
このメカニズムはより優れた検索精度を提供するが、ストレージと効率のトレードオフをもたらす。
これらのトレードオフを包括的に分析する。
さらに、モデルの検索能力を高めるために、2段階のトレーニング戦略を採用する。
関連論文リスト
- Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts [4.454997649515497]
空間的推論を強化するための新しいMLLMである ViCA2 (Visuospatial Cognitive Assistant 2) を紹介する。
ViCA2は、セマンティクスのためのSigLIPと空間構造のためのHieraを統合したデュアルビジョンアーキテクチャと、効率のためのトークン比制御機構を備えている。
また,322,000以上の質問応答対を持つ大規模認知データセットであるViCA322Kを開発した。
論文 参考訳(メタデータ) (2025-05-18T10:57:33Z) - Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。
本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。
損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文 参考訳(メタデータ) (2024-12-26T11:46:22Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。