論文の概要: TimeScope: Towards Task-Oriented Temporal Grounding In Long Videos
- arxiv url: http://arxiv.org/abs/2509.26360v1
- Date: Tue, 30 Sep 2025 15:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.591512
- Title: TimeScope: Towards Task-Oriented Temporal Grounding In Long Videos
- Title(参考訳): TimeScope:長いビデオでタスク指向の時間グラウンドを目指す
- Authors: Xiangrui Liu, Minghao Qin, Yan Shu, Zhengyang Liang, Yang Tian, Chen Jason Zhang, Bo Zhao, Zheng Liu,
- Abstract要約: ToTGは、タスクの自然な記述に基づいて必要な情報を含む時間間隔をローカライズすることを目的としている。
TimeScopeは進歩的推論に基づく新しいフレームワークである。
大規模な実験により、TimeScopeは既存の時間的接地法と一般的なMLLMよりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 29.519694803317055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying key moments in long videos is essential for downstream understanding and reasoning tasks. In this paper, we introduce a new problem, Taskoriented Temporal Grounding ToTG, which aims to localize time intervals containing the necessary information based on a task's natural description. Along with the definition, we also present ToTG Bench, a comprehensive benchmark for evaluating the performance on ToTG. ToTG is particularly challenging for traditional approaches due to their limited generalizability and difficulty in handling long videos. To address these challenges, we propose TimeScope, a novel framework built upon progressive reasoning. TimeScope first identifies a coarse-grained temporal scope in the long video that likely contains the key moments, and then refines this scope through finegrained moment partitioning. Additionally, we curate a highquality dataset, namely ToTG Pile, to enhance TimeScope's ability to perform progressive temporal grounding effectively. Extensive experiments demonstrate that TimeScope consistently outperforms both existing temporalgrounding methods and popular MLLMs across various settings, highlighting its effectiveness in addressing this new challenging problem.
- Abstract(参考訳): 長いビデオで重要な瞬間を特定することは、下流の理解と推論に不可欠である。
本稿では,タスクの自然な記述に基づいて,必要な情報を含む時間間隔をローカライズすることを目的としたタスク指向の時間的接地ToTGを提案する。
ToTG Benchは、ToTGの性能を評価するための総合的なベンチマークである。
ToTGは、長いビデオを扱うことの難しさと限定的な一般化性のために、従来のアプローチでは特に困難である。
これらの課題に対処するために、進歩的推論に基づく新しいフレームワークであるTimeScopeを提案する。
TimeScopeはまず、キーモーメントを含むと思われる長いビデオの粗い時間スコープを特定し、そのスコープをきめ細かなモーメントパーティショニングによって洗練する。
さらに、ToTG Pileと呼ばれる高品質なデータセットをキュレートして、TimeScopeのプログレッシブな時間的接地を効果的に行う能力を高める。
大規模な実験により、TimeScopeは既存の時間的接地手法とMLLMの両方を様々な設定で一貫して上回っており、この新たな課題に対処する上での有効性を強調している。
関連論文リスト
- TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding [83.96715649130435]
VTGタスクを効果的に分解するMixture-of-Experts(MoE)ベースのVideo-LLMであるTimeExpertを紹介する。
我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
論文 参考訳(メタデータ) (2025-08-03T10:03:58Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - Moment Quantization for Video Temporal Grounding [29.081100914208974]
我々は、新しいモーメント量子化に基づくビデオ時間グラウンド法(MQVTG)を提案する。
MQVTGは入力ビデオを様々な離散ベクトルに量子化し、関連するモーメントと無関係なモーメントの識別を強化する。
本手法は,関係する特徴を効果的にグループ化し,無関係な特徴を分離し,差別の強化を目標とする。
論文 参考訳(メタデータ) (2025-04-03T05:21:14Z) - TIME: Temporal-Sensitive Multi-Dimensional Instruction Tuning and Robust Benchmarking for Video-LLMs [56.92627816895305]
ビデオ大言語モデルは、ビデオ質問応答のようなタスクにおいて顕著なパフォーマンスを達成した。
我々のデータセットは5つの重要な次元にわたる時間的理解の向上に焦点を当てている。
本稿では,時間に敏感なタスクを既存の命令データセットにシームレスに統合するマルチタスクプロンプト微調整手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T03:05:11Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding [10.548950058205833]
Video Temporal Grounding (VTG)は、言語クエリを使用して特定のビデオ内のイベントタイムスタンプを正確に特定する。
ビデオ大言語モデル(ビデオLLM)は、ゼロショット方式で複数のタスクを同時に処理することができる。
本稿では,ビデオLLMのタイムスタンプローカライゼーション能力を向上させるモデルであるVTG-LLMを紹介する。
論文 参考訳(メタデータ) (2024-05-22T06:31:42Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。