論文の概要: VIRTUE: Versatile Video Retrieval Through Unified Embeddings
- arxiv url: http://arxiv.org/abs/2601.12193v1
- Date: Sat, 17 Jan 2026 23:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.502177
- Title: VIRTUE: Versatile Video Retrieval Through Unified Embeddings
- Title(参考訳): VIRTUE:Unified Embeddingsによるビデオ検索
- Authors: Shaunak Halbe, Bhagyashree Puranik, Jayakrishnan Unnikrishnan, Kushan Thakkar, Vimal Bhat, Toufiq Parag,
- Abstract要約: 我々は,コーパスとモーメントレベル検索機能を統合したMLLMベースの多目的ビデオ検索フレームワークであるVIRTUEを提案する。
我々は,共有MLLMバックボーンを用いて生成した視覚的およびテキスト的埋め込みのコントラストアライメントを用いて,効率的な埋め込みベースの候補探索を容易にする。
我々の埋め込みモデルは,700K対のビジュアルテキストデータサンプル上でローランク適応(LoRA)を効果的に訓練し,ゼロショットビデオ検索タスクにおける他のMLLM手法を超越した。
- 参考スコア(独自算出の注目度): 6.517174336539377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern video retrieval systems are expected to handle diverse tasks ranging from corpus-level retrieval and fine-grained moment localization to flexible multimodal querying. Specialized architectures achieve strong retrieval performance by training modality-specific encoders on massive datasets, but they lack the ability to process composed multimodal queries. In contrast, multimodal LLM (MLLM)-based methods support rich multimodal search but their retrieval performance remains well below that of specialized systems. We present VIRTUE, an MLLM-based versatile video retrieval framework that integrates corpus and moment-level retrieval capabilities while accommodating composed multimodal queries within a single architecture. We use contrastive alignment of visual and textual embeddings generated using a shared MLLM backbone to facilitate efficient embedding-based candidate search. Our embedding model, trained efficiently using low-rank adaptation (LoRA) on 700K paired visual-text data samples, surpasses other MLLM-based methods on zero-shot video retrieval tasks. Additionally, we demonstrate that the same model can be adapted without further training to achieve competitive results on zero-shot moment retrieval, and state of the art results for zero-shot composed video retrieval. With additional training for reranking candidates identified in the embedding-based search, our model substantially outperforms existing MLLM-based retrieval systems and achieves retrieval performance comparable to state of the art specialized models which are trained on orders of magnitude larger data.
- Abstract(参考訳): 最新のビデオ検索システムは,コーパスレベルの検索や微細なモーメントローカライゼーション,フレキシブルなマルチモーダルクエリなど,様々なタスクを扱うことが期待されている。
特殊なアーキテクチャは、大規模なデータセット上でモダリティ固有のエンコーダをトレーニングすることで、強力な検索性能を実現するが、合成されたマルチモーダルクエリを処理する能力は欠如している。
対照的に、マルチモーダルLLM(MLLM)ベースの手法は、リッチなマルチモーダル検索をサポートするが、その検索性能は専門システムのそれ以下である。
本稿では,MLLMをベースとした多目的ビデオ検索フレームワークであるVIRTUEについて述べる。
我々は,共有MLLMバックボーンを用いて生成した視覚的およびテキスト的埋め込みのコントラストアライメントを用いて,効率的な埋め込みベースの候補探索を容易にする。
我々の埋め込みモデルは,700K対のビジュアルテキストデータサンプル上でローランク適応(LoRA)を効果的に訓練し,ゼロショットビデオ検索タスクにおける他のMLLM手法を超越した。
さらに、ゼロショットモーメント検索における競合的な結果と、ゼロショット合成ビデオ検索のための最先端結果を得るために、さらなるトレーニングを伴わずに、同じモデルを適用できることを実証した。
埋め込み型検索で特定された候補の再ランク付けのための追加トレーニングにより、我々のモデルは既存のMLLM検索システムよりも大幅に優れ、膨大なデータに基づいて訓練された最先端の特殊モデルに匹敵する検索性能が得られる。
関連論文リスト
- LLM-I: LLMs are Naturally Interleaved Multimodal Creators [24.64752837827959]
LLM-Interleaved (LLM-I) は、ツールユース問題としてインターリーブド画像テキスト生成を再設計するフレキシブルで動的フレームワークである。
我々のフレームワークは、中央のLLMエージェントやMLLMエージェントに、特殊な視覚ツールの多種多様なツールキットをインテリジェントにオーケストレーションする権限を与えます。
LLM-Iは最先端のパフォーマンスを実証し、4つのベンチマークで既存の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-17T02:33:29Z) - Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval [29.05476868272228]
インスタンス駆動型マルチモーダル画像検索(IDMR)は、テキスト記述シナリオにマッチしながら、クエリイメージと同じインスタンスを含む画像を取得するモデルを必要とする、新しいタスクである。
この能力をベンチマークするために,実世界の物体追跡と一対一のビデオデータを用いたIDMRベンチを開発した。
我々のMultimodal Large Language Model(MLLM)に基づく検索モデルは、1.2Mサンプルに基づいて訓練され、従来のベンチマークとゼロショットIDMRベンチの両方で最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2025-04-01T16:47:20Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。