Fugu-MT 論文翻訳(概要): Re-thinking Temporal Search for Long-Form Video Understanding

論文の概要: Re-thinking Temporal Search for Long-Form Video Understanding

arxiv url: http://arxiv.org/abs/2504.02259v2
Date: Sun, 06 Apr 2025 14:10:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 11:49:49.775729
Title: Re-thinking Temporal Search for Long-Form Video Understanding
Title（参考訳）: 長時間ビデオ理解のための時間探索の再考
Authors: Jinhui Ye, Zihan Wang, Haosen Sun, Keshigeyan Chandrasegaran, Zane Durante, Cristobal Eyzaguirre, Yonatan Bisk, Juan Carlos Niebles, Ehsan Adeli, Li Fei-Fei, Jiajun Wu, Manling Li,
Abstract要約: 現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
参考スコア（独自算出の注目度）: 67.12801626407135
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Efficiently understanding long-form videos remains a significant challenge in computer vision. In this work, we revisit temporal search paradigms for long-form video understanding and address a fundamental issue pertaining to all state-of-the-art (SOTA) long-context vision-language models (VLMs). Our contributions are twofold: First, we frame temporal search as a Long Video Haystack problem: finding a minimal set of relevant frames (e.g., one to five) from tens of thousands based on specific queries. Upon this formulation, we introduce LV-Haystack, the first dataset with 480 hours of videos, 15,092 human-annotated instances for both training and evaluation aiming to improve temporal search quality and efficiency. Results on LV-Haystack highlight a significant research gap in temporal search capabilities, with current SOTA search methods only achieving 2.1% temporal F1 score on the Longvideobench subset. Next, inspired by visual search in images, we propose a lightweight temporal search framework, T* that reframes costly temporal search as spatial search. T* leverages powerful visual localization techniques commonly used in images and introduces an adaptive zooming-in mechanism that operates across both temporal and spatial dimensions. Extensive experiments show that integrating T* with existing methods significantly improves SOTA long-form video understanding. Under an inference budget of 32 frames, T* improves GPT-4o's performance from 50.5% to 53.1% and LLaVA-OneVision-OV-72B's performance from 56.5% to 62.4% on the Longvideobench XL subset. Our code, benchmark, and models are provided in the Supplementary material.
Abstract（参考訳）: 長いビデオの効率的な理解は、コンピュータビジョンにおいて重要な課題である。本研究では、長文ビデオ理解のための時間的探索パラダイムを再検討し、全ての最先端(SOTA)長文視覚言語モデル(VLM)に関する根本的な問題に対処する。まず、時間的検索をLong Video Haystack問題として、特定のクエリに基づいて数万から数万の関連するフレーム(例:1から5)の最小セットを見つける。この定式化に際しては,480時間の動画を含む最初のデータセットであるLV-Haystackと,時間探索の質と効率の向上を目的としたトレーニングおよび評価のための15,092の人称アノテーション付きインスタンスを紹介した。 LV-Haystackの結果は、現在のSOTA検索手法がLong videobenchサブセットで2.1%の時間的F1スコアしか達成できないという、時間的探索能力の重大な研究ギャップを浮き彫りにした。次に,画像の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。 T*は画像によく使われる強力な視覚的ローカライゼーション技術を活用し、時間次元と空間次元の両方で機能する適応的なズームイン機構を導入する。大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。 32フレームの推論予算の下で、T* は GPT-4o の性能を 50.5% から 53.1% に改善し、LLaVA-OneVision-OV-72B は 56.5% から 62.4% に改善した。コード、ベンチマーク、モデルは補足材料で提供されます。

関連論文リスト

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning [30.895558843927862]
時間探索は、与えられたクエリに基づいて数万のフレームから最小限のフレームを識別することを目的としている。 TimeSearch-Rは、時間検索をインターリーブされたテキストビデオ思考として再構成する。検索ビデオクリップを、強化学習による推論プロセスにシームレスに統合する。
論文参考訳（メタデータ） (2025-11-07T18:58:25Z)
VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding [22.400847202448478]
長いビデオ理解は、大言語モデル(ML)に重大な課題をもたらす VisualSubtitleation (VSI)はサブタイトル、セマンティックタイムスタンプ、シーン境界を統合されたマルチモーダル検索プロセスに統合する。提案手法は,ビデオフレームの視覚情報と補完的なテキスト情報とを,二重ストリーム検索機構を用いてキャプチャする。
論文参考訳（メタデータ） (2025-08-09T07:38:48Z)
Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文参考訳（メタデータ） (2025-07-07T06:51:40Z)
TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。 TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。 i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文参考訳（メタデータ） (2025-06-05T12:54:56Z)
TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding [24.52604124233087]
大規模ビデオ言語モデル(LVLM)は、様々なビデオ言語タスクで顕著なパフォーマンスを示している。長いビデオを空間的にも時間的にもダウンサンプリングすることは視覚幻覚を引き起こす可能性があるため、長いビデオを正確に解釈することは困難である。 TimeSearchは2つの人間のようなプリミティブを統合された自己回帰型LVLMに統合する。
論文参考訳（メタデータ） (2025-04-02T06:47:19Z)
BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文参考訳（メタデータ） (2025-03-27T13:18:40Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文参考訳（メタデータ） (2024-12-31T15:53:50Z)
Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文参考訳（メタデータ） (2024-12-26T11:32:00Z)
Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。 LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文参考訳（メタデータ） (2024-10-08T16:10:29Z)
T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval [30.48217069475297]
本稿では,ビデオ識別子を直接生成するシーケンス・ツー・シーケンス生成モデルであるT2VIndexerというモデルに基づくビデオインデクサを提案する。 T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。
論文参考訳（メタデータ） (2024-08-21T08:40:45Z)
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文参考訳（メタデータ） (2024-04-25T19:29:55Z)
TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。 TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-10-29T16:25:32Z)
ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search [94.90294600817215]
高速なオンラインビデオポーズ推定のための空間的・時間的ネットワークに対する新しいニューラルネットワーク探索(NAS)手法(ViPNAS)を提案する。空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。時間レベルでは、一連の時間的特徴融合から検索し、複数のビデオフレームの合計精度と速度を最適化する。
論文参考訳（メタデータ） (2021-05-21T06:36:40Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。