論文の概要: LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts
- arxiv url: http://arxiv.org/abs/2505.13928v1
- Date: Tue, 20 May 2025 04:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.750429
- Title: LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts
- Title(参考訳): LoVR:マルチモーダルコンテキストにおける長時間ビデオ検索のためのベンチマーク
- Authors: Qifeng Cai, Hao Liang, Hejun Dong, Meiyi Qiang, Ruichuan An, Zhaoyang Han, Zhengzhou Zhu, Bin Cui, Wentao Zhang,
- Abstract要約: 長いビデオテキスト検索用に特別に設計されたベンチマークであるLoVRを紹介する。
LoVRには467本の長編ビデオと40,804本の細かなクリップがあり、高品質なキャプションがある。
私たちのベンチマークでは、より長いビデオ、より詳細なキャプション、より大規模なデータセットを導入しています。
- 参考スコア(独自算出の注目度): 35.49959781944883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long videos contain a vast amount of information, making video-text retrieval an essential and challenging task in multimodal learning. However, existing benchmarks suffer from limited video duration, low-quality captions, and coarse annotation granularity, which hinder the evaluation of advanced video-text retrieval methods. To address these limitations, we introduce LoVR, a benchmark specifically designed for long video-text retrieval. LoVR contains 467 long videos and over 40,804 fine-grained clips with high-quality captions. To overcome the issue of poor machine-generated annotations, we propose an efficient caption generation framework that integrates VLM automatic generation, caption quality scoring, and dynamic refinement. This pipeline improves annotation accuracy while maintaining scalability. Furthermore, we introduce a semantic fusion method to generate coherent full-video captions without losing important contextual information. Our benchmark introduces longer videos, more detailed captions, and a larger-scale dataset, presenting new challenges for video understanding and retrieval. Extensive experiments on various advanced embedding models demonstrate that LoVR is a challenging benchmark, revealing the limitations of current approaches and providing valuable insights for future research. We release the code and dataset link at https://github.com/TechNomad-ds/LoVR-benchmark
- Abstract(参考訳): 長いビデオには膨大な情報が含まれており、マルチモーダル学習においてビデオテキスト検索が不可欠で困難な課題となっている。
しかし、既存のベンチマークでは、ビデオ長の制限、低品質キャプション、粗いアノテーションの粒度に悩まされており、高度なビデオテキスト検索手法の評価を妨げている。
これらの制限に対処するため、長いビデオテキスト検索用に特別に設計されたベンチマークであるLoVRを導入する。
LoVRには467本の長編ビデオと40,804本の細かなクリップがあり、高品質なキャプションがある。
本稿では,VLM自動生成,キャプション品質スコアリング,ダイナミックリファインメントを統合した効率的なキャプション生成フレームワークを提案する。
このパイプラインはスケーラビリティを維持しながらアノテーションの精度を向上させる。
さらに,重要な文脈情報を失うことなく,コヒーレントなフルビデオキャプションを生成する意味融合手法を提案する。
私たちのベンチマークでは、より長いビデオ、より詳細なキャプション、より大規模なデータセットを導入し、ビデオの理解と検索に新たな課題を提示しています。
様々な高度な埋め込みモデルに関する大規模な実験は、LoVRが挑戦的なベンチマークであることを示し、現在のアプローチの限界を明らかにし、将来の研究に貴重な洞察を提供する。
コードとデータセットのリンクはhttps://github.com/TechNomad-ds/LoVR-benchmarkで公開しています。
関連論文リスト
- HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。