論文の概要: CoSTL: Comprehensive Spatial-Temporal Representation Learning for Moment Retrieval and Highlight Detection
- arxiv url: http://arxiv.org/abs/2606.01149v1
- Date: Sun, 31 May 2026 10:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.281305
- Title: CoSTL: Comprehensive Spatial-Temporal Representation Learning for Moment Retrieval and Highlight Detection
- Title(参考訳): CoSTL:モーメント検索と光検出のための総合的空間時間表現学習
- Authors: Xin Dong, Wenjia Geng, Wenfeng Deng, Yansong Tang,
- Abstract要約: ビデオモーメント検索(MR)とハイライト検出(HD)は、特定のモーメントをローカライズし、所定のテキストクエリに基づいてクリップワイズ関連性を推定することを目的としたビデオ分析において重要なタスクである。
最近のアプローチでは、同様のビデオグラウンドタスクとして扱い、同じアーキテクチャを使って解決している。
これらのタスクは、画像レベルでのきめ細かい理解と、ビデオ全体にわたる高レベルの時間的理解の両方を必要とする。
既存のアプローチは主にフレームレベルの特徴を用いた時間的モデリングに重点を置いており、多くの場合、個々のフレーム内のテキストクエリに関連する豊富な視覚情報を無視している。
- 参考スコア(独自算出の注目度): 36.404472837216346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Moment Retrieval (MR) and Highlight Detection (HD) are crucial tasks in video analysis that aim to localize specific moments and estimate clip-wise relevance based on a given text query. Recent approaches treat them as similar video grounding tasks and use the same architecture to solve them. These tasks require both fine-grained comprehension at the image level and high-level temporal understanding across the entire video. Existing approaches have primarily focused on temporal modeling using frame-level features, often neglecting the rich visual information related to the text query within individual frames. This oversight leads to inaccurate grounding results. To address this limitation, we propose a Comprehensive Spatial-Temporal Representation Learning Framework (CoSTL), which captures both fine-grained image-level information and temporal dynamics. Specifically, CoSTL incorporates a text-driven progressive fine-grained image encoder, performing a two-step text-driven knowledge extraction process to learn fine-grained spatial representations. Furthermore, a multi-scale temporal perception module captures comprehensive spatial-temporal representations, enhancing the model's ability to process temporal dynamics. We demonstrate state-of-the-art performance on four public benchmarks: QVHighlights, Charades-STA, TACoS, and TVSum.
- Abstract(参考訳): ビデオモーメント検索(MR)とハイライト検出(HD)は、特定のモーメントをローカライズし、所定のテキストクエリに基づいてクリップワイズ関連性を推定することを目的としたビデオ分析において重要なタスクである。
最近のアプローチでは、同様のビデオグラウンドタスクとして扱い、同じアーキテクチャを使って解決している。
これらのタスクは、画像レベルでのきめ細かい理解と、ビデオ全体にわたる高レベルの時間的理解の両方を必要とする。
既存のアプローチは主にフレームレベルの特徴を用いた時間的モデリングに重点を置いており、多くの場合、個々のフレーム内のテキストクエリに関連する豊富な視覚情報を無視している。
この監視は不正確な接地結果をもたらす。
この制限に対処するために、細粒度画像情報と時間ダイナミクスの両方をキャプチャする包括的空間時間表現学習フレームワーク(CoSTL)を提案する。
特に、CoSTLはテキスト駆動のプログレッシブな微細な画像エンコーダを内蔵し、2段階のテキスト駆動の知識抽出プロセスを実行し、微細な空間表現を学習する。
さらに、マルチスケールの時間知覚モジュールは、包括的な空間的時間的表現をキャプチャし、時間的ダイナミクスを処理するモデルの能力を高める。
QVHighlights、Charades-STA、TACoS、TVSumの4つの公開ベンチマークで最先端のパフォーマンスを示す。
関連論文リスト
- Spatio-Temporal Data Enhanced Vision-Language Model for Traffic Scene Understanding [49.748517517482014]
交通シーン理解 (tsu) は,交通シーンを包括的に記述することを目的としている。
近年の研究では、時間的課題を無視して、共通のイメージ理解タスクとして扱われることが多い。
これは視覚モデルに時間情報を統合する最初の試みである。
論文 参考訳(メタデータ) (2025-11-12T04:55:38Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding [19.50051728766238]
ダイナミックイメージ(DynImg)と呼ばれる革新的な映像表現手法を提案する。
具体的には,非キーフレームの集合を時間的プロンプトとして導入し,高速移動物体を含む空間領域を強調する。
視覚的特徴抽出の過程で、これらのプロンプトは、これらの領域に対応するきめ細かい空間的特徴にさらなる注意を払うようモデルに誘導する。
論文 参考訳(メタデータ) (2025-07-21T12:50:49Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。