Fugu-MT 論文翻訳(概要): OmniRet: Efficient and High-Fidelity Omni Modality Retrieval

論文の概要: OmniRet: Efficient and High-Fidelity Omni Modality Retrieval

arxiv url: http://arxiv.org/abs/2603.02098v1
Date: Mon, 02 Mar 2026 17:19:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:57.003083
Title: OmniRet: Efficient and High-Fidelity Omni Modality Retrieval
Title（参考訳）: OmniRet: 効率的かつ高忠実なOmniモダリティ検索
Authors: Chuong Huynh, Manh Luong, Abhinav Shrivastava,
Abstract要約: OmniRetは,テキスト,視覚,音声の3つの重要なモダリティにまたがる複雑なクエリを処理可能な,最初の検索モデルである。提案モデルでは,コンポジションクエリ,音声,ビデオ検索のタスクにおいて,最先端のモデルを用いたオンパーパフォーマンスを実現しつつ,大幅な改善を実現している。
参考スコア（独自算出の注目度）: 51.80205678389465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal retrieval is the task of aggregating information from queries across heterogeneous modalities to retrieve desired targets. State-of-the-art multimodal retrieval models can understand complex queries, yet they are typically limited to two modalities: text and vision. This limitation impedes the development of universal retrieval systems capable of comprehending queries that combine more than two modalities. To advance toward this goal, we present OmniRet, the first retrieval model capable of handling complex, composed queries spanning three key modalities: text, vision, and audio. Our OmniRet model addresses two critical challenges for universal retrieval: computational efficiency and representation fidelity. First, feeding massive token sequences from modality-specific encoders to Large Language Models (LLMs) is computationally inefficient. We therefore introduce an attention-based resampling mechanism to generate compact, fixed-size representations from these sequences. Second, compressing rich omni-modal data into a single embedding vector inevitably causes information loss and discards fine-grained details. We propose Attention Sliced Wasserstein Pooling to preserve these fine-grained details, leading to improved omni-modal representations. OmniRet is trained on an aggregation of approximately 6 million query-target pairs spanning 30 datasets. We benchmark our model on 13 retrieval tasks and a MMEBv2 subset. Our model demonstrates significant improvements on composed query, audio and video retrieval tasks, while achieving on-par performance with state-of-the-art models on others. Furthermore, we curate a new Audio-Centric Multimodal Benchmark (ACM). This new benchmark introduces two critical, previously missing tasks-composed audio retrieval and audio-visual retrieval to more comprehensively evaluate a model's omni-modal embedding capacity.
Abstract（参考訳）: マルチモーダル検索は、不均一なモダリティをまたいだクエリからの情報を集約して、望ましいターゲットを検索するタスクである。最先端のマルチモーダル検索モデルは複雑なクエリを理解できるが、通常はテキストとビジョンの2つのモードに制限される。この制限は、2つ以上のモダリティを組み合わせたクエリを解釈できるユニバーサル検索システムの開発を妨げる。この目標に向けて,テキスト,ビジョン,音声の3つの主要なモダリティにまたがる複雑なクエリを処理可能な,最初の検索モデルであるOmniRetを提案する。我々のOmniRetモデルは、計算効率と表現忠実性の2つの重要な課題に対処する。第一に、モダリティ特化エンコーダから大規模言語モデル(LLM)への大量のトークンシーケンスの供給は、計算的に非効率である。そこで我々はこれらのシーケンスからコンパクトで固定サイズの表現を生成するために注意に基づく再サンプリング機構を導入する。第二に、リッチなOmni-Modalデータを単一の埋め込みベクトルに圧縮することは、必然的に情報損失を引き起こし、きめ細かい詳細を破棄する。これらの細かな詳細を保存し、オムニモーダル表現を改善するために、注意スライスワッサースタインプールを提案する。 OmniRetは、30のデータセットにまたがる約600万のクエリターゲットペアのアグリゲーションに基づいてトレーニングされている。 13の検索タスクとMMEBv2サブセットでモデルをベンチマークする。提案モデルでは,コンポジションクエリ,音声,ビデオ検索のタスクにおいて,最先端のモデルを用いたオンパーパフォーマンスを実現しつつ,大幅な改善を実現している。さらに,新しいACM(Audio-Centric Multimodal Benchmark)をキュレートする。このベンチマークでは、以前欠落していた2つの重要な音声検索と音声視覚検索を導入し、モデルの全モード埋め込み能力をより包括的に評価する。

関連論文リスト

Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval [0.0]
モーダルな時間的イベント検索フレームワークを提案する。 Kernel Density Mixture Thresholding (KDE-GMM)アルゴリズムが用いられている。システムには、ユーザクエリを洗練および拡張するために、大きな言語モデル(LLM)が組み込まれている。
論文参考訳（メタデータ） (2025-12-06T07:46:51Z)
MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-30T15:09:14Z)
Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文参考訳（メタデータ） (2025-09-10T18:00:29Z)
MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。 MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文参考訳（メタデータ） (2025-03-26T16:28:04Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Any2Any: Incomplete Multimodal Retrieval with Conformal Prediction [17.607392214470295]
我々はAny2Anyという新しい検索フレームワークを提案し、クエリと参照の両方が不完全なモダリティを持つシナリオに対処する。クロスモーダルエンコーダとのペアワイズ類似度を計算し、同型予測を伴う2段階キャリブレーションプロセスを用いて類似度を整列する。 KITTIデータセットで35%のRecall@5を達成する。
論文参考訳（メタデータ） (2024-11-15T17:44:27Z)
Explore the Limits of Omni-modal Pretraining at Scale [21.82148059125346]
マルチモーダルコンテキスト(MiCo)という,スケーラブルな事前学習パラダイムを提案する。 MiCoは、事前トレーニングプロセスにおいて、モデルパラメータとともに、モダリティとデータの量をスケールアップすることができる。我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。
論文参考訳（メタデータ） (2024-06-13T17:59:53Z)
What Makes for Robust Multi-Modal Models in the Face of Missing Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。 UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。 UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文参考訳（メタデータ） (2023-10-10T07:47:57Z)
Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文参考訳（メタデータ） (2021-07-04T08:35:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。