論文の概要: Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding
- arxiv url: http://arxiv.org/abs/2209.13306v1
- Date: Tue, 27 Sep 2022 11:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:44:13.423062
- Title: Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding
- Title(参考訳): 一貫性を受け入れる: 時空間ビデオグラウンディングの一段階アプローチ
- Authors: Yang Jin, Yongzhi Li, Zehuan Yuan, Yadong Mu
- Abstract要約: 本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
- 参考スコア(独自算出の注目度): 35.73830796500975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-Temporal video grounding (STVG) focuses on retrieving the
spatio-temporal tube of a specific object depicted by a free-form textual
expression. Existing approaches mainly treat this complicated task as a
parallel frame-grounding problem and thus suffer from two types of
inconsistency drawbacks: feature alignment inconsistency and prediction
inconsistency. In this paper, we present an end-to-end one-stage framework,
termed Spatio-Temporal Consistency-Aware Transformer (STCAT), to alleviate
these issues. Specially, we introduce a novel multi-modal template as the
global objective to address this task, which explicitly constricts the
grounding region and associates the predictions among all video frames.
Moreover, to generate the above template under sufficient video-textual
perception, an encoder-decoder architecture is proposed for effective global
context modeling. Thanks to these critical designs, STCAT enjoys more
consistent cross-modal feature alignment and tube prediction without reliance
on any pre-trained object detectors. Extensive experiments show that our method
outperforms previous state-of-the-arts with clear margins on two challenging
video benchmarks (VidSTG and HC-STVG), illustrating the superiority of the
proposed framework to better understanding the association between vision and
natural language. Code is publicly available at
\url{https://github.com/jy0205/STCAT}.
- Abstract(参考訳): spatio-temporal video grounding (stvg) は、自由形式のテキスト表現で表される特定の物体の時空間チューブの検索に焦点を当てている。
既存のアプローチは主に、この複雑なタスクを並列フレームグラウンド問題として扱うため、特徴整合不整合と予測不整合という2つのタイプの矛盾に悩まされる。
本稿では,これらの問題を緩和するために,時空間整合型変圧器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
特に,この課題に対処するためのグローバルな目的として,新しいマルチモーダルテンプレートを導入し,接地領域を明示的に制限し,全映像フレーム間の予測を関連付ける。
さらに,このテンプレートを十分な映像テキスト認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
これらの重要な設計のおかげで、STCATは、事前訓練された物体検出器に依存することなく、より一貫性のあるクロスモーダルな特徴アライメントと管予測を享受できる。
広汎な実験により,提案手法は従来の最先端技術よりも高い性能を示し,視覚と自然言語の関連性をよりよく理解するために,提案手法の優位性を示した。
コードは \url{https://github.com/jy0205/STCAT} で公開されている。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - OED: Towards One-stage End-to-End Dynamic Scene Graph Generation [18.374354844446962]
ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。
本稿では,DSGGパイプラインを合理化する一段階のエンドツーエンドフレームワークOEDを提案する。
このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
論文 参考訳(メタデータ) (2024-05-27T08:18:41Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。