Fugu-MT 論文翻訳(概要): AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval

論文の概要: AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval

arxiv url: http://arxiv.org/abs/2603.13537v1
Date: Fri, 13 Mar 2026 19:20:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.26065
Title: AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval
Title（参考訳）: AMES: 遅延インタラクション検索によるマルチモーダルエンタープライズ検索
Authors: Tony Joseph, Carlos Pareja, David Lopes Pegna, Abhishek Singh,
Abstract要約: AMESはバックエンドに依存しないマルチモーダル遅延相互作用検索アーキテクチャである。テキストトークン、画像パッチ、ビデオフレームは、マルチベクトルエンコーダを使用して共有表現空間に埋め込まれる。 AMESは、スケーラブルで実運用可能なSolrベースのシステムにおいて、競争力のあるランキングパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 2.147003825882519
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present AMES (Approximate Multimodal Enterprise Search), a unified multimodal late interaction retrieval architecture which is backend agnostic. AMES demonstrates that fine-grained multimodal late interaction retrieval can be deployed within a production grade enterprise search engine without architectural redesign. Text tokens, image patches, and video frames are embedded into a shared representation space using multi-vector encoders, enabling cross-modal retrieval without modality specific retrieval logic. AMES employs a two-stage pipeline: parallel token level ANN search with per document Top-M MaxSim approximation, followed by accelerator optimized Exact MaxSim re-ranking. Experiments on the ViDoRe V3 benchmark show that AMES achieves competitive ranking performance within a scalable, production ready Solr based system.
Abstract（参考訳）: 本稿では,バックエンドに依存しないマルチモーダル遅延相互作用検索アーキテクチャであるAMES(Approximate Multimodal Enterprise Search)を提案する。 AMESは、アーキテクチャの再設計なしに、細粒度のマルチモーダル遅延インタラクション検索を製品グレードのエンタープライズ検索エンジン内に展開できることを示した。テキストトークン、画像パッチ、ビデオフレームは、マルチベクトルエンコーダを使用して共有表現空間に埋め込み、モダリティ固有の検索ロジックを使わずに、クロスモーダル検索を可能にする。 AMESは2段階のパイプラインを採用している: パラレルトークンレベル ANN Search with per document Top-M MaxSim approximation, そしてアクセラレータ最適化されたExact MaxSimが再ランク付けされる。 ViDoRe V3ベンチマークの実験によると、AMESはスケーラブルで実運用可能なSolrベースのシステムにおいて、競争力のあるランキング性能を達成する。

関連論文リスト

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval [27.493644447594367]
MCMR (Multi-Conditional Multimodal Retrieval) は、自然言語クエリによる細粒度・多条件クロスモーダル検索を評価するために設計された大規模ベンチマークである。製品ドメインは、上着と下着、宝石、靴、家具の5つ。 MLLMベースのマルチモーダルレトリバーと視覚言語リランカの多種多様なスイートをベンチマークし,その条件認識推論能力を評価する。
論文参考訳（メタデータ） (2026-03-01T12:53:47Z)
UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文参考訳（メタデータ） (2025-10-04T04:30:13Z)
MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction [13.70527493534928]
マルチモーダル検索のための新しいフレームワークであるMetaEmbedを紹介する。トレーニング中は、入力シーケンスに一定の数の学習可能なメタトークンが付加される。テスト時には、その最後のレイヤのコンテキスト化表現はコンパクトだが表現力のあるマルチベクトル埋め込みとして機能する。
論文参考訳（メタデータ） (2025-09-22T17:59:42Z)
Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文参考訳（メタデータ） (2025-09-10T18:00:29Z)
MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents [44.63565009665076]
マルチモーダル理解を強制する311タスクのベンチマークであるMMSearch-Plusを紹介する。標準ブラウジングツールとset-of-mark(SoM)モジュールを備えたモデルに依存しないエージェントフレームワークを提供する。 SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
論文参考訳（メタデータ） (2025-08-29T09:58:27Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。 MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文参考訳（メタデータ） (2024-07-05T02:01:49Z)
CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。