論文の概要: TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding
- arxiv url: http://arxiv.org/abs/2504.01407v1
- Date: Wed, 02 Apr 2025 06:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.252507
- Title: TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding
- Title(参考訳): TimeSearch:人間のような長いビデオ理解のためのスポットライトと反射による階層的ビデオ検索
- Authors: Junwen Pan, Rui Zhang, Xin Wan, Yuan Zhang, Ming Lu, Qi She,
- Abstract要約: 大規模ビデオ言語モデル(LVLM)は、様々なビデオ言語タスクで顕著なパフォーマンスを示している。
長いビデオを空間的にも時間的にもダウンサンプリングすることは視覚幻覚を引き起こす可能性があるため、長いビデオを正確に解釈することは困難である。
TimeSearchは2つの人間のようなプリミティブを統合された自己回帰型LVLMに統合する。
- 参考スコア(独自算出の注目度): 24.52604124233087
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large video-language models (LVLMs) have shown remarkable performance across various video-language tasks. However, they encounter significant challenges when processing long videos because of the large number of video frames involved. Downsampling long videos in either space or time can lead to visual hallucinations, making it difficult to accurately interpret long videos. Motivated by human hierarchical temporal search strategies, we propose \textbf{TimeSearch}, a novel framework enabling LVLMs to understand long videos in a human-like manner. TimeSearch integrates two human-like primitives into a unified autoregressive LVLM: 1) \textbf{Spotlight} efficiently identifies relevant temporal events through a Temporal-Augmented Frame Representation (TAFR), explicitly binding visual features with timestamps; 2) \textbf{Reflection} evaluates the correctness of the identified events, leveraging the inherent temporal self-reflection capabilities of LVLMs. TimeSearch progressively explores key events and prioritizes temporal search based on reflection confidence. Extensive experiments on challenging long-video benchmarks confirm that TimeSearch substantially surpasses previous state-of-the-art, improving the accuracy from 41.8\% to 51.5\% on the LVBench. Additionally, experiments on temporal grounding demonstrate that appropriate TAFR is adequate to effectively stimulate the surprising temporal grounding ability of LVLMs in a simpler yet versatile manner, which improves mIoU on Charades-STA by 11.8\%. The code will be released.
- Abstract(参考訳): 大規模ビデオ言語モデル(LVLM)は、様々なビデオ言語タスクで顕著なパフォーマンスを示している。
しかし、ビデオフレームが多すぎるため、長いビデオの処理には重大な課題が伴う。
長いビデオを空間的にも時間的にもダウンサンプリングすることは視覚幻覚を引き起こす可能性があるため、長いビデオを正確に解釈することは困難である。
人間の階層的時間探索戦略により,LVLMが人間のように長い動画を理解できるようにする新しいフレームワークである「textbf{TimeSearch}」を提案する。
TimeSearchは2つの人間のようなプリミティブを統合された自己回帰型LVLMに統合する。
1) \textbf{Spotlight} は、時間的拡張フレーム表現(TAFR)を通して、時間的事象を効果的に識別し、視覚的特徴をタイムスタンプと明示的に結び付ける。
2) {\displaystyle \textbf{Reflection} は、LVLMの時間的自己反射能力を利用して、同定された事象の正しさを評価する。
TimeSearchは、重要なイベントを徐々に探求し、リフレクションの信頼性に基づいた時間検索を優先する。
挑戦的なロングビデオベンチマークに関する大規模な実験では、TimeSearchが過去の最先端をかなり上回り、LVBenchの精度を41.8\%から51.5\%に改善したことが確認された。
さらに, 時間的接地実験により, LVLMの驚くべき時間的接地能力を効果的に刺激し, チャラデス-STA上のmIoUを11.8\%向上させることを示した。
コードはリリースされます。
関連論文リスト
- Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。
モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。
よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文 参考訳(メタデータ) (2025-06-28T15:24:05Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - How Important are Videos for Training Video LLMs? [55.965474658745315]
画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。
本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。
これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
論文 参考訳(メタデータ) (2025-06-07T21:32:19Z) - Re-thinking Temporal Search for Long-Form Video Understanding [67.12801626407135]
現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。
画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。
大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T04:03:10Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval [30.48217069475297]
本稿では,ビデオ識別子を直接生成するシーケンス・ツー・シーケンス生成モデルであるT2VIndexerというモデルに基づくビデオインデクサを提案する。
T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。
論文 参考訳(メタデータ) (2024-08-21T08:40:45Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。