論文の概要: Bridging Time and Space: Decoupled Spatio-Temporal Alignment for Video Grounding
- arxiv url: http://arxiv.org/abs/2604.08014v1
- Date: Thu, 09 Apr 2026 09:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.833763
- Title: Bridging Time and Space: Decoupled Spatio-Temporal Alignment for Video Grounding
- Title(参考訳): ブリッジング時間と空間:ビデオグラウンドのための時空間アライメントの分離
- Authors: Xuezhen Tu, Jingyu Wu, Fangyu Kang, Qingpeng Nong, Kaijin Zhang, Chaoyue Niu, Fan Wu,
- Abstract要約: textbfBridge-STGは、意味的コヒーレンスを維持しながら時間的および空間的ローカライゼーションを分離するエンドツーエンドフレームワークである。
Bridge-STGはMLLM方式の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 6.673833357112721
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spatio-Temporal Video Grounding requires jointly localizing target objects across both temporal and spatial dimensions based on natural language queries, posing fundamental challenges for existing Multimodal Large Language Models (MLLMs). We identify two core challenges: \textit{entangled spatio-temporal alignment}, arising from coupling two heterogeneous sub-tasks within the same autoregressive output space, and \textit{dual-domain visual token redundancy}, where target objects exhibit simultaneous temporal and spatial sparsity, rendering the overwhelming majority of visual tokens irrelevant to the grounding query. To address these, we propose \textbf{Bridge-STG}, an end-to-end framework that decouples temporal and spatial localization while maintaining semantic coherence. While decoupling is the natural solution to this entanglement, it risks creating a semantic gap between the temporal MLLM and the spatial decoder. Bridge-STG resolves this through two pivotal designs: the \textbf{Spatio-Temporal Semantic Bridging (STSB)} mechanism with Explicit Temporal Alignment (ETA) distills the MLLM's temporal reasoning context into enriched bridging queries as a robust semantic interface; and the \textbf{Query-Guided Spatial Localization (QGSL)} module leverages these queries to drive a purpose-built spatial decoder with multi-layer interactive queries and positive/negative frame sampling, jointly eliminating dual-domain visual token redundancy. Extensive experiments across multiple benchmarks demonstrate that Bridge-STG achieves state-of-the-art performance among MLLM-based methods. Bridge-STG improves average m\_vIoU from $26.4$ to $34.3$ on VidSTG and demonstrates strong cross-task transfer across various fine-grained video understanding tasks under a unified multi-task training regime.
- Abstract(参考訳): 時空間ビデオグラウンドリングでは、自然言語クエリに基づく時間的および空間的両方の対象オブジェクトを共同でローカライズする必要があるため、既存のマルチモーダル大言語モデル(MLLM)に根本的な課題が生じる。
同一自己回帰出力空間内の2つの異種サブタスクの結合から生じる, \textit{entangled spatio-temporal alignment} と, 対象オブジェクトが同時に時間空間と空間空間の間隔を示すような \textit{dual-domain visual token dundancy} という2つのコア課題が, グラウンドクエリとは無関係に, 圧倒的な視覚トークンの大部分をレンダリングする。
そこで本稿では,意味的コヒーレンスを維持しつつ,時間的・空間的局所性を分離するエンドツーエンドフレームワークである「textbf{Bridge-STG}」を提案する。
デカップリングはこの絡み合いの自然な解決法であるが、時間的MLLMと空間的デコーダの間に意味的ギャップを生じさせるリスクがある。
Bridge-STGは2つの重要な設計を通じてこれを解決している: 明示的テンポラルアライメント (ETA) による \textbf{Spatio-Temporal Semantic Bridging (STSB) メカニズムはMLLMの時間的推論コンテキストを、堅牢なセマンティックインターフェースとして強化されたブリッジクエリに蒸留する。
複数のベンチマークでの大規模な実験により、Bridge-STGはMLLMベースの手法で最先端の性能を達成することが示された。
ブリッジ-STGは平均m\_vIoUを26.4ドルから34.3ドルに改善し、マルチタスクトレーニング体制の下で様々な微粒なビデオ理解タスクを横断する強力なクロスタスク転送を示す。
関連論文リスト
- 1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning [53.28271278708241]
本稿では,DEViL の略である Detector-Empowered Video LLM を提案する。
DEViLはオープンボキャブラリ検出器(OVD)とビデオLLMを結合する
単に空間的なプロンプトやセグメンタスイッチとして機能するトークンとは異なり、RTTは制御信号とOVDのテキスト埋め込みの置き換えの両方として機能する。
論文 参考訳(メタデータ) (2025-12-07T06:11:15Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding [29.42797944919497]
LLaVA-STは空間的・時間的マルチモーダル理解のためのMLLMである。
LLaVA-STでは,座標の特別なトークンを視覚空間に埋め込んだLanguage-Aligned Positional Embeddingを提案する。
また、時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
論文 参考訳(メタデータ) (2025-01-14T17:58:12Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。