論文の概要: Towards Long-Form Spatio-Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2602.23294v1
- Date: Thu, 26 Feb 2026 18:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.830313
- Title: Towards Long-Form Spatio-Temporal Video Grounding
- Title(参考訳): 長時間の時空間ビデオグラウンド化に向けて
- Authors: Xin Gu, Bing Fan, Jiali Yao, Zhipeng Zhang, Yan Huang, Cheng Han, Heng Fan, Libo Zhang,
- Abstract要約: 長期的なビデオは、より長い時間的スパンを含み、より無関係な情報を含んでいる。
ビデオシーケンス全体を一度に予測する従来のSTVG法とは異なり、ART-STVGは動画をストリーミング入力フレームとして扱い、順次処理する。
異なるモーメントからのメモリは必ずしも現在のフレームに関係しないため、単純かつ効果的なメモリ選択戦略を導入する。
- 参考スコア(独自算出の注目度): 37.582576273199955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real scenarios, videos can span several minutes or even hours. However, existing research on spatio-temporal video grounding (STVG), given a textual query, mainly focuses on localizing targets in short videos of tens of seconds, typically less than one minute, which limits real-world applications. In this paper, we explore Long-Form STVG (LF-STVG), which aims to locate targets in long-term videos. Compared with short videos, long-term videos contain much longer temporal spans and more irrelevant information, making it difficult for existing STVG methods that process all frames at once. To address this challenge, we propose an AutoRegressive Transformer architecture for LF-STVG, termed ART-STVG. Unlike conventional STVG methods that require the entire video sequence to make predictions at once, ART-STVG treats the video as streaming input and processes frames sequentially, enabling efficient handling of long videos. To model spatio-temporal context, we design spatial and temporal memory banks and apply them to the decoders. Since memories from different moments are not always relevant to the current frame, we introduce simple yet effective memory selection strategies to provide more relevant information to the decoders, significantly improving performance. Furthermore, instead of parallel spatial and temporal localization, we propose a cascaded spatio-temporal design that connects the spatial decoder to the temporal decoder, allowing fine-grained spatial cues to assist complex temporal localization in long videos. Experiments on newly extended LF-STVG datasets show that ART-STVG significantly outperforms state-of-the-art methods, while achieving competitive performance on conventional short-form STVG.
- Abstract(参考訳): 実際のシナリオでは、ビデオは数分や数時間にまたがる。
しかし、テキストクエリーが与えられた時空間ビデオグラウンドリング(STVG)に関する既存の研究は、主に数秒の短いビデオでターゲットをローカライズすることに焦点を当てており、通常は1分未満で、現実世界のアプリケーションに制限がある。
本稿では,Long-Form STVG(LF-STVG)について検討する。
短いビデオと比較すると、長期的なビデオは時間的スパンと関連性のない情報を含んでいるため、すべてのフレームを同時に処理する既存のSTVGメソッドでは困難である。
そこで我々は,ART-STVGと呼ばれるLF-STVGのためのAutoRegressive Transformerアーキテクチャを提案する。
ビデオシーケンス全体を一度に予測する従来のSTVG法とは異なり、ART-STVGは動画をストリーミング入力として扱い、フレームを順次処理することで、長いビデオの効率的な処理を可能にする。
時空間コンテキストをモデル化するために,空間記憶バンクと時間記憶バンクを設計し,デコーダに適用する。
異なるモーメントからのメモリは必ずしも現在のフレームに関係しないため、デコーダにより関連性の高い情報を提供するための単純かつ効果的なメモリ選択戦略を導入し、性能を大幅に改善する。
さらに,空間デコーダと時間デコーダを接続する空間デコーダの空間的局所化と時間的局所化の並列化に代えて,空間デコーダを時間的デコーダに接続するカスケード型時空間設計を提案する。
LF-STVGデータセットを新たに拡張した実験により、ART-STVGは最先端の手法よりも優れ、従来のショートフォームSTVGでは競争性能が向上した。
関連論文リスト
- Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning [41.30900315121155]
マルチモーダル大言語モデル(LM)は、トレーニング目的のミスアライメントと、標準のビジュアルエンコーダにおける微粒な微粒化アライメントの弱さにより、STVGでは性能が劣る。
本稿では,STVG-o1を提案する。STVG-o1は,市販のMLLMがアーキテクチャ変更なしにリアルタイムのSTVG性能を実現するための最初のフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:21:15Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Video LLMs for Temporal Reasoning in Long Videos [7.2900856926028155]
テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。
我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。
本稿では,TemporalVLMの評価を容易にするために,産業組み立てプロセスの大規模ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-04T00:50:33Z) - FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [3.6519202494141125]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)とTAR(Temporal Affinity Refiner)をクロスアテンションの開始と終了に組み込んでいる。
提案手法は,EvalCrafterベンチマークを用いて,最先端のT2V生成結果を実現する。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。