論文の概要: TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos
- arxiv url: http://arxiv.org/abs/2503.06526v1
- Date: Sun, 09 Mar 2025 09:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:12.362499
- Title: TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos
- Title(参考訳): TimeLoc:ロングビデオの正確なタイムスタンプローカライゼーションのための一貫したエンドツーエンドフレームワーク
- Authors: Chen-Lin Zhang, Lin Sui, Shuming Liu, Fangzhou Mu, Zhangcheng Wang, Bernard Ghanem,
- Abstract要約: ビデオの時間的ローカライゼーションは、ビデオの理解には不可欠だが、それでも難しい。
このタスクは、時間的アクションローカライゼーション、時間的ビデオグラウンドニング、モーメント検索、ジェネリックイベント境界検出など、いくつかのサブタスクを含む。
複数のタスクを処理できるタイムスタンプローカライゼーションのための統合エンドツーエンドフレームワークであるTimeLocを提案する。
- 参考スコア(独自算出の注目度): 50.04992164981131
- License:
- Abstract: Temporal localization in untrimmed videos, which aims to identify specific timestamps, is crucial for video understanding but remains challenging. This task encompasses several subtasks, including temporal action localization, temporal video grounding, moment retrieval, and generic event boundary detection. Existing methods in each subfield are typically designed for specific tasks and lack generalizability across domains. In this paper, we propose TimeLoc, a unified end-to-end framework for timestamp localization that can handle multiple tasks. First, our approach employs a simple yet effective one-stage localization model that supports text queries as input and multiple actions as output. Second, we jointly train the video encoder and localization model in an end-to-end manner. To efficiently process long videos, we introduce temporal chunking, enabling the handling of videos with over 30k frames. Third, we find that fine-tuning pre-trained text encoders with a multi-stage training strategy further enhances text-conditioned localization. TimeLoc achieves state-of-the-art results across multiple benchmarks: +1.3% and +1.9% mAP over previous best methods on THUMOS14 and EPIC-Kitchens-100, +1.1% on Kinetics-GEBD, +2.94% mAP on QVHighlights, and significant improvements in temporal video grounding (+11.5% on TACoS and +6.7% on Charades-STA under R1@0.5). Our code and checkpoints will be released at https://github.com/sming256/TimeLoc.
- Abstract(参考訳): タイムスタンプの特定を目的とした未トリミングビデオの時間的ローカライゼーションは,ビデオ理解には不可欠だが,依然として困難である。
このタスクは、時間的アクションローカライゼーション、時間的ビデオグラウンドニング、モーメント検索、ジェネリックイベント境界検出など、いくつかのサブタスクを含む。
各サブフィールドに存在する既存のメソッドは、通常特定のタスクのために設計され、ドメイン間の一般化性に欠ける。
本稿では,複数のタスクを処理可能なタイムスタンプローカライゼーションのための統合エンドツーエンドフレームワークであるTimeLocを提案する。
まず,テキストクエリを入力としてサポートし,複数のアクションを出力としてサポートする。
第2に、ビデオエンコーダとローカライゼーションモデルをエンドツーエンドで共同でトレーニングする。
長時間の動画を効率的に処理するために,30kフレーム以上のビデオの処理が可能な時間チャンキングを導入する。
第三に、マルチステージトレーニング戦略による微調整済みテキストエンコーダは、テキスト条件のローカライゼーションをさらに強化する。
TimeLocは、THUMOS14とEPIC-Kitchens-100の以前のベストメソッドよりも+1.3%と+1.9% mAP、Kinetics-GEBDの+1.1%、QVHighlightsの+2.94% mAP、時間的ビデオグラウンドの大幅な改善(TACoSでは+11.5%、R1@0.5では+6.7%)、複数のベンチマークで最先端の結果を達成した。
私たちのコードとチェックポイントはhttps://github.com/sming256/TimeLoc.comでリリースされます。
関連論文リスト
- Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding [20.037781644877388]
TimeChatは、長いビデオ理解のために特別に設計された、時間に敏感なマルチモーダルな大規模言語モデルである。
本モデルは,(1) フレームのタイムスタンプに視覚的コンテンツをバインドするタイムスタンプ対応フレームエンコーダ,(2) 長さの異なるビデオトークンシーケンスを生成するスライドビデオQ-Formerの2つの重要なアーキテクチャ的コントリビューションを含む。
論文 参考訳(メタデータ) (2023-12-04T17:09:52Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding
in Long Videos [60.86880787242561]
ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。
高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。
提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
論文 参考訳(メタデータ) (2023-03-15T03:54:43Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。