論文の概要: Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding
- arxiv url: http://arxiv.org/abs/2209.13306v1
- Date: Tue, 27 Sep 2022 11:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:44:13.423062
- Title: Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding
- Title(参考訳): 一貫性を受け入れる: 時空間ビデオグラウンディングの一段階アプローチ
- Authors: Yang Jin, Yongzhi Li, Zehuan Yuan, Yadong Mu
- Abstract要約: 本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
- 参考スコア(独自算出の注目度): 35.73830796500975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-Temporal video grounding (STVG) focuses on retrieving the
spatio-temporal tube of a specific object depicted by a free-form textual
expression. Existing approaches mainly treat this complicated task as a
parallel frame-grounding problem and thus suffer from two types of
inconsistency drawbacks: feature alignment inconsistency and prediction
inconsistency. In this paper, we present an end-to-end one-stage framework,
termed Spatio-Temporal Consistency-Aware Transformer (STCAT), to alleviate
these issues. Specially, we introduce a novel multi-modal template as the
global objective to address this task, which explicitly constricts the
grounding region and associates the predictions among all video frames.
Moreover, to generate the above template under sufficient video-textual
perception, an encoder-decoder architecture is proposed for effective global
context modeling. Thanks to these critical designs, STCAT enjoys more
consistent cross-modal feature alignment and tube prediction without reliance
on any pre-trained object detectors. Extensive experiments show that our method
outperforms previous state-of-the-arts with clear margins on two challenging
video benchmarks (VidSTG and HC-STVG), illustrating the superiority of the
proposed framework to better understanding the association between vision and
natural language. Code is publicly available at
\url{https://github.com/jy0205/STCAT}.
- Abstract(参考訳): spatio-temporal video grounding (stvg) は、自由形式のテキスト表現で表される特定の物体の時空間チューブの検索に焦点を当てている。
既存のアプローチは主に、この複雑なタスクを並列フレームグラウンド問題として扱うため、特徴整合不整合と予測不整合という2つのタイプの矛盾に悩まされる。
本稿では,これらの問題を緩和するために,時空間整合型変圧器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
特に,この課題に対処するためのグローバルな目的として,新しいマルチモーダルテンプレートを導入し,接地領域を明示的に制限し,全映像フレーム間の予測を関連付ける。
さらに,このテンプレートを十分な映像テキスト認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
これらの重要な設計のおかげで、STCATは、事前訓練された物体検出器に依存することなく、より一貫性のあるクロスモーダルな特徴アライメントと管予測を享受できる。
広汎な実験により,提案手法は従来の最先端技術よりも高い性能を示し,視覚と自然言語の関連性をよりよく理解するために,提案手法の優位性を示した。
コードは \url{https://github.com/jy0205/STCAT} で公開されている。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。