論文の概要: TubeRMC: Tube-conditioned Reconstruction with Mutual Constraints for Weakly-supervised Spatio-Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2511.10241v1
- Date: Fri, 14 Nov 2025 01:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.763977
- Title: TubeRMC: Tube-conditioned Reconstruction with Mutual Constraints for Weakly-supervised Spatio-Temporal Video Grounding
- Title(参考訳): チューブコンディショニングによる経時的ビデオグラウンディングのための相互制約付きチューブコンディショニング
- Authors: Jinxuan Li, Yi Zhang, Jian-Fang Hu, Chaolei Tan, Tianming Liang, Beihao Xia,
- Abstract要約: Video Grounding (ST) は、ある言語クエリに対応する時間管を非言語ビデオでローカライズすることを目的としている。
最近の研究は、境界ボックスや時間的アノテーションのような細かいアノテーションへの依存を取り除くために、弱い教師付きSTを探索している。
本稿では,視覚的接地モデルを生成し,時間的制約を伴ってチューブ条件の再構成により洗練するテキスト条件付き候補再構成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.87624706845173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatio-Temporal Video Grounding (STVG) aims to localize a spatio-temporal tube that corresponds to a given language query in an untrimmed video. This is a challenging task since it involves complex vision-language understanding and spatiotemporal reasoning. Recent works have explored weakly-supervised setting in STVG to eliminate reliance on fine-grained annotations like bounding boxes or temporal stamps. However, they typically follow a simple late-fusion manner, which generates tubes independent of the text description, often resulting in failed target identification and inconsistent target tracking. To address this limitation, we propose a Tube-conditioned Reconstruction with Mutual Constraints (\textbf{TubeRMC}) framework that generates text-conditioned candidate tubes with pre-trained visual grounding models and further refine them via tube-conditioned reconstruction with spatio-temporal constraints. Specifically, we design three reconstruction strategies from temporal, spatial, and spatio-temporal perspectives to comprehensively capture rich tube-text correspondences. Each strategy is equipped with a Tube-conditioned Reconstructor, utilizing spatio-temporal tubes as condition to reconstruct the key clues in the query. We further introduce mutual constraints between spatial and temporal proposals to enhance their quality for reconstruction. TubeRMC outperforms existing methods on two public benchmarks VidSTG and HCSTVG. Further visualization shows that TubeRMC effectively mitigates both target identification errors and inconsistent tracking.
- Abstract(参考訳): Spatio-Temporal Video Grounding (STVG) は、与えられた言語クエリに対応する時空間管を非トリミングビデオでローカライズすることを目的としている。
複雑な視覚言語理解と時空間推論を含むため、これは難しい課題である。
最近の研究は、境界ボックスやテンポラリスタンプのような細かいアノテーションへの依存を取り除くために、STVGの弱教師付き設定を調査している。
しかし、それらは典型的には単純なレイトフュージョン方式に従っており、テキスト記述とは無関係に管を生成するため、しばしば標的の識別に失敗し、目標の追跡に矛盾する。
この制限に対処するために、事前訓練された視覚的接地モデルでテキスト条件付き候補管を生成し、時空間制約付き管条件付き再構成によりさらに洗練する、相互制約付き管条件付き再構成(\textbf{TubeRMC})フレームワークを提案する。
具体的には, 時間的, 空間的, 空間的, 時空間的な3つの再構築戦略を設計し, リッチな管文対応を包括的に捉える。
それぞれの戦略は、クエリのキーキーを再構築する条件として時空間管を利用するチューブコンディショナーを備える。
さらに,再建の質を高めるため,空間的提案と時間的提案の相互制約を導入する。
TubeRMCは、VidSTGとHCSTVGの2つの公開ベンチマークで既存の手法より優れている。
さらなる可視化により、TubeRMCはターゲットの識別誤りと一貫性のない追跡の両方を効果的に軽減していることが示された。
関連論文リスト
- Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Contextual Self-paced Learning for Weakly Supervised Spatio-Temporal Video Grounding [24.650102499933514]
Weakly Supervised S-Temporal Video Grounding (WSTVG) に注目した。
まず、WSTVGの最先端オブジェクト検出モデルの可能性について検討する。
頑丈なゼロショット機能にもかかわらず、我々の適応には大きな制限がある。
本稿では,これらの制約を克服するための新しいアプローチであるCoSPaLを提案する。
論文 参考訳(メタデータ) (2025-01-28T16:25:10Z) - Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。
最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。
本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T16:48:55Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。