Fugu-MT 論文翻訳(概要): STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding

論文の概要: STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding

arxiv url: http://arxiv.org/abs/2502.20678v2
Date: Sat, 05 Apr 2025 08:57:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-08 20:14:38.778348
Title: STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding
Title（参考訳）: STPro: 弱教師付き時空間接地のための空間的・時間的プログレッシブラーニング
Authors: Aaryan Garg, Akash Kumar, Yogesh S Rawat,
Abstract要約: Weakly Supervised S-Temporal Video Grounding (WSTVG) について検討した。視覚時間基礎モデルの最近の進歩に触発されて,ゼロショットグラウンド機能を活用したWSTVGの実用性について検討する。このギャップを埋めるため、2つの重要なモジュールを持つ新しいプログレッシブラーニングフレームワークSTProを提案する。
参考スコア（独自算出の注目度）: 13.352635332422768
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work we study Weakly Supervised Spatio-Temporal Video Grounding (WSTVG), a challenging task of localizing subjects spatio-temporally in videos using only textual queries and no bounding box supervision. Inspired by recent advances in vision-language foundation models, we investigate their utility for WSTVG, leveraging their zero-shot grounding capabilities. However, we find that a simple adaptation lacks essential spatio-temporal grounding abilities. To bridge this gap, we introduce Tubelet Referral Grounding (TRG), which connects textual queries to tubelets to enable spatio-temporal predictions. Despite its promise, TRG struggles with compositional action understanding and dense scene scenarios. To address these limitations, we propose STPro, a novel progressive learning framework with two key modules: (1) Sub-Action Temporal Curriculum Learning (SA-TCL), which incrementally builds compositional action understanding, and (2) Congestion-Guided Spatial Curriculum Learning (CG-SCL), which adapts the model to complex scenes by spatially increasing task difficulty. STPro achieves state-of-the-art results on three benchmark datasets, with improvements of 1.0% on VidSTG-Declarative and 3.0% on HCSTVG-v1.
Abstract（参考訳）: 本研究は,テキストクエリのみを用いてビデオ中の被験者の時空間的位置を定位し,バウンディングボックスの監督を行わないWakly Supervised Spatio-Temporal Video Grounding(WSTVG)について検討する。視覚言語基盤モデルの最近の進歩に触発されて、我々はWSTVGの実用性を調査し、ゼロショットグラウンド機能を活用している。しかし, 単純適応は時空間接地能力が欠如していることが判明した。このギャップを埋めるために、テキストクエリをチューブレットに接続し、時空間予測を可能にするチューブレット参照グラウンド(TRG)を導入する。その約束にもかかわらず、TRGは構成的行動理解と密集したシーンシナリオに苦戦している。これらの制約に対処するため,(1)サブ・アクション・テンポラル・カリキュラム・ラーニング(SA-TCL)を段階的に構築するサブ・アクション・テンポラル・カリキュラム・ラーニング(SA-TCL)と(2)コンジェクション・ガイド型空間的カリキュラム・ラーニング(CG-SCL)という2つの重要なモジュールを持つ新しいプログレッシブ・ラーニング・フレームワークであるSTProを提案する。 STProは3つのベンチマークデータセットで最先端の結果を達成し、VidSTG-Declarativeでは1.0%、HCSTVG-v1では3.0%改善した。

関連論文リスト

Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文参考訳（メタデータ） (2025-03-22T05:04:12Z)
Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T17:04:20Z)
Contextual Self-paced Learning for Weakly Supervised Spatio-Temporal Video Grounding [24.650102499933514]
Weakly Supervised S-Temporal Video Grounding (WSTVG) に注目した。まず、WSTVGの最先端オブジェクト検出モデルの可能性について検討する。頑丈なゼロショット機能にもかかわらず、我々の適応には大きな制限がある。本稿では,これらの制約を克服するための新しいアプローチであるCoSPaLを提案する。
論文参考訳（メタデータ） (2025-01-28T16:25:10Z)
Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文参考訳（メタデータ） (2023-12-31T13:53:37Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-23T16:29:16Z)
A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文参考訳（メタデータ） (2021-09-16T15:01:46Z)
Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文参考訳（メタデータ） (2020-07-17T08:20:39Z)
Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2020-01-17T01:00:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。