論文の概要: MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction
- arxiv url: http://arxiv.org/abs/2509.18095v1
- Date: Mon, 22 Sep 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.562028
- Title: MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction
- Title(参考訳): MetaEmbed: フレキシブルな遅延インタラクションによるテスト時間におけるマルチモーダル検索のスケールアップ
- Authors: Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan,
- Abstract要約: マルチモーダル検索のための新しいフレームワークであるMetaEmbedを紹介する。
トレーニング中は、入力シーケンスに一定の数の学習可能なメタトークンが付加される。
テスト時には、その最後のレイヤのコンテキスト化表現はコンパクトだが表現力のあるマルチベクトル埋め込みとして機能する。
- 参考スコア(独自算出の注目度): 13.70527493534928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal multimodal embedding models have achieved great success in capturing semantic relevance between queries and candidates. However, current methods either condense queries and candidates into a single vector, potentially limiting the expressiveness for fine-grained information, or produce too many vectors that are prohibitively expensive for multi-vector retrieval. In this work, we introduce MetaEmbed, a new framework for multimodal retrieval that rethinks how multimodal embeddings are constructed and interacted with at scale. During training, a fixed number of learnable Meta Tokens are appended to the input sequence. At test-time, their last-layer contextualized representations serve as compact yet expressive multi-vector embeddings. Through the proposed Matryoshka Multi-Vector Retrieval training, MetaEmbed learns to organize information by granularity across multiple vectors. As a result, we enable test-time scaling in multimodal retrieval, where users can balance retrieval quality against efficiency demands by selecting the number of tokens used for indexing and retrieval interactions. Extensive evaluations on the Massive Multimodal Embedding Benchmark (MMEB) and the Visual Document Retrieval Benchmark (ViDoRe) confirm that MetaEmbed achieves state-of-the-art retrieval performance while scaling robustly to models with 32B parameters.
- Abstract(参考訳): ユニバーサルなマルチモーダル埋め込みモデルは、クエリと候補間のセマンティックな関連を捉えることに成功している。
しかし、現在の手法では、クエリと候補を単一のベクトルにまとめることによって、きめ細かい情報の表現性を制限したり、多ベクトル検索には高すぎるベクトルを生成することができる。
本稿では,マルチモーダルな組込みを大規模に構築・操作する方法を再考する,マルチモーダル検索のための新しいフレームワークであるMetaEmbedを紹介する。
トレーニング中は、入力シーケンスに一定の数の学習可能なメタトークンが付加される。
テスト時には、その最後のレイヤのコンテキスト化表現はコンパクトだが表現力のあるマルチベクトル埋め込みとして機能する。
提案されたMateryoshka Multi-Vector Retrievalトレーニングを通じて、MetaEmbedは、複数のベクトルにわたる粒度によって情報を整理することを学ぶ。
その結果、マルチモーダル検索におけるテストタイムスケーリングが可能となり、索引付けや検索操作に使用されるトークン数を選択することで、検索品質と効率性のバランスをとることができる。
MMEB(Massive Multimodal Embedding Benchmark)とViDoRe(Visual Document Retrieval Benchmark)の広範囲な評価により、MetaEmbedは32Bパラメータを持つモデルに対して堅牢にスケールしながら、最先端の検索性能を達成することを確認した。
関連論文リスト
- Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - Developing Visual Augmented Q&A System using Scalable Vision Embedding Retrieval & Late Interaction Re-ranker [0.0]
本稿では,視覚検索プロセスのスケーラビリティと効率を向上するための実用的アプローチを,性能品質を損なうことなく検討する。
本稿では,広く採用されているハイブリッド検索(メタメタと埋め込み)と,遅延インタラクションリランカの状態を利用して,最適なマッチングページを検索する多段階カスタム実装を提案する。
論文 参考訳(メタデータ) (2025-07-16T16:27:05Z) - Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express [3.8973445113342433]
スケーラブルなマルチモーダル検索システムを構築するには、いくつかのコンポーネントを微調整する必要がある。
埋め込みモデル選択、マッチングとランク付けにおける埋め込みの役割、密着と疎着のバランス等について考察する。
論文 参考訳(メタデータ) (2024-08-26T23:52:27Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。