論文の概要: Re-thinking Temporal Search for Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2504.02259v1
- Date: Thu, 03 Apr 2025 04:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:39.780298
- Title: Re-thinking Temporal Search for Long-Form Video Understanding
- Title(参考訳): 長時間ビデオ理解のための時間探索の再考
- Authors: Jinhui Ye, Zihan Wang, Haosen Sun, Keshigeyan Chandrasegaran, Zane Durante, Cristobal Eyzaguirre, Yonatan Bisk, Juan Carlos Niebles, Ehsan Adeli, Li Fei-Fei, Jiajun Wu, Manling Li,
- Abstract要約: 長文ビデオ理解のための時間探索パラダイムを再考する。
本稿では,空間探索問題として高価な時間探索を行う軽量検索フレームワークT*を提案する。
実験の結果,既存の手法と統合した場合,T*はSOTA長大映像理解性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 67.12801626407135
- License:
- Abstract: Efficient understanding of long-form videos remains a significant challenge in computer vision. In this work, we revisit temporal search paradigms for long-form video understanding, studying a fundamental issue pertaining to all state-of-the-art (SOTA) long-context vision-language models (VLMs). In particular, our contributions are two-fold: First, we formulate temporal search as a Long Video Haystack problem, i.e., finding a minimal set of relevant frames (typically one to five) among tens of thousands of frames from real-world long videos given specific queries. To validate our formulation, we create LV-Haystack, the first benchmark containing 3,874 human-annotated instances with fine-grained evaluation metrics for assessing keyframe search quality and computational efficiency. Experimental results on LV-Haystack highlight a significant research gap in temporal search capabilities, with SOTA keyframe selection methods achieving only 2.1% temporal F1 score on the LVBench subset. Next, inspired by visual search in images, we re-think temporal searching and propose a lightweight keyframe searching framework, T*, which casts the expensive temporal search as a spatial search problem. T* leverages superior visual localization capabilities typically used in images and introduces an adaptive zooming-in mechanism that operates across both temporal and spatial dimensions. Our extensive experiments show that when integrated with existing methods, T* significantly improves SOTA long-form video understanding performance. Specifically, under an inference budget of 32 frames, T* improves GPT-4o's performance from 50.5% to 53.1% and LLaVA-OneVision-72B's performance from 56.5% to 62.4% on LongVideoBench XL subset. Our PyTorch code, benchmark dataset and models are included in the Supplementary material.
- Abstract(参考訳): 長いビデオの効率的な理解は、コンピュータビジョンにおいて重要な課題である。
本研究では,長文ビデオ理解のための時間的探索パラダイムを再検討し,すべての最先端(SOTA)長文視覚言語モデル(VLM)に関する根本的な問題について考察する。
まず、時間探索をLong Video Haystack問題として定式化します。つまり、特定のクエリを与えられた実世界の長いビデオから何万ものフレームのうち、関連するフレーム(典型的には1から5)の最小セットを見つけることです。
我々の定式化を検証するため、LV-Haystackという3,874個の注釈付きインスタンスを含む最初のベンチマークを作成し、キーフレームの検索品質と計算効率を評価するための詳細な評価指標を作成した。
LV-Haystackの実験結果は、LVBenchサブセット上で2.1%の時間的F1スコアしか達成できないSOTAキーフレーム選択法によって、時間的探索能力の重大な研究ギャップを浮き彫りにした。
次に,画像の視覚探索に着想を得て,時間探索を再考し,空間探索問題として高価な時間探索を行う軽量な鍵フレーム探索フレームワークT*を提案する。
T*は画像に典型的な優れた視覚的ローカライゼーション機能を活用し、時間次元と空間次元の両方で機能する適応的なズームイン機構を導入する。
実験により,既存の手法と統合した場合,T*はSOTA長大映像理解性能を著しく向上させることが示された。
特に32フレームの推論予算の下で、T*はGPT-4oのパフォーマンスを50.5%から53.1%に改善し、LLaVA-OneVision-72Bは56.5%から62.4%に改善した。
私たちのPyTorchコード、ベンチマークデータセット、モデルは、サプリメント・マテリアルに含まれている。
関連論文リスト
- CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval [30.48217069475297]
本稿では,ビデオ識別子を直接生成するシーケンス・ツー・シーケンス生成モデルであるT2VIndexerというモデルに基づくビデオインデクサを提案する。
T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。
論文 参考訳(メタデータ) (2024-08-21T08:40:45Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文 参考訳(メタデータ) (2023-06-15T17:57:28Z) - ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search [94.90294600817215]
高速なオンラインビデオポーズ推定のための空間的・時間的ネットワークに対する新しいニューラルネットワーク探索(NAS)手法(ViPNAS)を提案する。
空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。
時間レベルでは、一連の時間的特徴融合から検索し、複数のビデオフレームの合計精度と速度を最適化する。
論文 参考訳(メタデータ) (2021-05-21T06:36:40Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。