論文の概要: MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence
- arxiv url: http://arxiv.org/abs/2510.21406v1
- Date: Fri, 24 Oct 2025 12:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.47073
- Title: MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence
- Title(参考訳): MUVR:マルチレベル視覚対応付きマルチモードアントリミングビデオ検索ベンチマーク
- Authors: Yue Feng, Jinwei Hu, Qijia Lu, Jiawei Niu, Li Tan, Shuo Yuan, Ziyi Yan, Yizhen Jia, Qingzhi He, Shiping Ge, Ethan Q. Chen, Wentong Li, Limin Wang, Jie Qin,
- Abstract要約: MUVRは、マルチモーダルクエリを使用して、関連セグメントを含む未トリミングなビデオを取得することを目的としている。
MUVRはビデオプラットフォームBilibiliの53Kビデオで構成されており、マルチモーダルクエリは1,050、マッチは84Kである。
- 参考スコア(独自算出の注目度): 38.13428814544438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the Multi-modal Untrimmed Video Retrieval task, along with a new benchmark (MUVR) to advance video retrieval for long-video platforms. MUVR aims to retrieve untrimmed videos containing relevant segments using multi-modal queries. It has the following features: 1) Practical retrieval paradigm: MUVR supports video-centric multi-modal queries, expressing fine-grained retrieval needs through long text descriptions, video tag prompts, and mask prompts. It adopts a one-to-many retrieval paradigm and focuses on untrimmed videos, tailored for long-video platform applications. 2) Multi-level visual correspondence: To cover common video categories (e.g., news, travel, dance) and precisely define retrieval matching criteria, we construct multi-level visual correspondence based on core video content (e.g., news events, travel locations, dance moves) which users are interested in and want to retrieve. It covers six levels: copy, event, scene, instance, action, and others. 3) Comprehensive evaluation criteria: We develop 3 versions of MUVR (i.e., Base, Filter, QA). MUVR-Base/Filter evaluates retrieval models, while MUVR-QA assesses MLLMs in a question-answering format. We also propose a Reranking Score to evaluate the reranking ability of MLLMs. MUVR consists of 53K untrimmed videos from the video platform Bilibili, with 1,050 multi-modal queries and 84K matches. Extensive evaluations of 3 state-of-the-art video retrieval models, 6 image-based VLMs, and 10 MLLMs are conducted. MUVR reveals the limitations of retrieval methods in processing untrimmed videos and multi-modal queries, as well as MLLMs in multi-video understanding and reranking. Our code and benchmark is available at https://github.com/debby-0527/MUVR.
- Abstract(参考訳): 本稿では,Multi-modal Untrimmed Video Retrievalタスクを提案する。
MUVRは、マルチモーダルクエリを使用して、関連セグメントを含む未トリミングなビデオを取得することを目的としている。
以下の特徴がある。
1)実践的な検索パラダイム:MUVRはビデオ中心のマルチモーダルクエリをサポートし,長いテキスト記述,ビデオタグプロンプト,マスクプロンプトを通じて詳細な検索ニーズを表現している。
これは一対多の検索パラダイムを採用し、長ビデオプラットフォームアプリケーション用に調整された、未トリミングビデオに焦点を当てている。
2) 共通映像カテゴリ(ニュース,旅行,ダンスなど)を網羅し,検索マッチング基準を正確に定義するために,ユーザが興味を持って検索したい中核映像コンテンツ(ニュースイベント,旅行場所,ダンスの動きなど)に基づいて,多段階の視覚対応を構築する。
コピー、イベント、シーン、インスタンス、アクション、その他の6つのレベルをカバーする。
3)総合評価基準:MUVRの3つのバージョン(ベース,フィルタ,QA)を開発する。
MUVR-Base/Filterは検索モデルを評価し、MUVR-QAは質問応答形式でMLLMを評価する。
また,MLLMの再ランク付け能力を評価するためのリグレートスコアを提案する。
MUVRはビデオプラットフォームBilibiliの53Kビデオで構成されており、マルチモーダルクエリは1,050、マッチは84Kである。
3つの最先端ビデオ検索モデル,6つの画像ベースVLM,10個のMLLMの大規模評価を行った。
MUVRは、未トリミングビデオやマルチモーダルクエリの検索方法の限界と、マルチビデオ理解と再ランク付けにおけるMLLMを明らかにしている。
私たちのコードとベンチマークはhttps://github.com/debby-0527/MUVR.comで公開されています。
関連論文リスト
- CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models [35.31011102734943]
クロスビデオ推論(CVR)は、複数のビデオの同時理解を必要とし、ビデオのグループ間で情報を集約し比較する。
既存のビデオ理解ベンチマークのほとんどはシングルビデオ分析に重点を置いており、マルチモーダルな大規模言語モデル(MLLM)が様々な動画を同時に推論できる能力の評価に失敗している。
最近のベンチマークでは、同一シーンの異なる視点を捉えたマルチビュービデオにおいてMLLMの能力を評価している。
我々は,MLLMの空間時間推論能力をクロスビデオ・コンテキストで包括的に評価する最初のベンチマークであるCrossVidを紹介する。
論文 参考訳(メタデータ) (2025-11-15T15:41:38Z) - CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation [29.58444236508143]
MRAG(Multimodal Retrieval-Augmented Generation)により、MLLM(Large Language Models)は、外部のマルチモーダルエビデンスによる応答を生成することができる。
既存のベンチマークは、モダリティのカバレッジとフォーマットの多様性に制限されている。
CFVBenchは599の公開ビデオから構築された大規模で手動で検証されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-10T11:05:37Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [120.67048724315619]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。