Fugu-MT 論文翻訳(概要): Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding

論文の概要: Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding

arxiv url: http://arxiv.org/abs/2209.13306v1
Date: Tue, 27 Sep 2022 11:13:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 15:44:13.423062
Title: Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding
Title（参考訳）: 一貫性を受け入れる: 時空間ビデオグラウンディングの一段階アプローチ
Authors: Yang Jin, Yongzhi Li, Zehuan Yuan, Yadong Mu
Abstract要約: 本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
参考スコア（独自算出の注目度）: 35.73830796500975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatio-Temporal video grounding (STVG) focuses on retrieving the spatio-temporal tube of a specific object depicted by a free-form textual expression. Existing approaches mainly treat this complicated task as a parallel frame-grounding problem and thus suffer from two types of inconsistency drawbacks: feature alignment inconsistency and prediction inconsistency. In this paper, we present an end-to-end one-stage framework, termed Spatio-Temporal Consistency-Aware Transformer (STCAT), to alleviate these issues. Specially, we introduce a novel multi-modal template as the global objective to address this task, which explicitly constricts the grounding region and associates the predictions among all video frames. Moreover, to generate the above template under sufficient video-textual perception, an encoder-decoder architecture is proposed for effective global context modeling. Thanks to these critical designs, STCAT enjoys more consistent cross-modal feature alignment and tube prediction without reliance on any pre-trained object detectors. Extensive experiments show that our method outperforms previous state-of-the-arts with clear margins on two challenging video benchmarks (VidSTG and HC-STVG), illustrating the superiority of the proposed framework to better understanding the association between vision and natural language. Code is publicly available at \url{https://github.com/jy0205/STCAT}.
Abstract（参考訳）: spatio-temporal video grounding (stvg) は、自由形式のテキスト表現で表される特定の物体の時空間チューブの検索に焦点を当てている。既存のアプローチは主に、この複雑なタスクを並列フレームグラウンド問題として扱うため、特徴整合不整合と予測不整合という2つのタイプの矛盾に悩まされる。本稿では,これらの問題を緩和するために,時空間整合型変圧器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。特に,この課題に対処するためのグローバルな目的として,新しいマルチモーダルテンプレートを導入し,接地領域を明示的に制限し,全映像フレーム間の予測を関連付ける。さらに,このテンプレートを十分な映像テキスト認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。これらの重要な設計のおかげで、STCATは、事前訓練された物体検出器に依存することなく、より一貫性のあるクロスモーダルな特徴アライメントと管予測を享受できる。広汎な実験により,提案手法は従来の最先端技術よりも高い性能を示し,視覚と自然言語の関連性をよりよく理解するために,提案手法の優位性を示した。コードは \url{https://github.com/jy0205/STCAT} で公開されている。

関連論文リスト

From Data to Modeling: Fully Open-vocabulary Scene Graph Generation [29.42202665594218]
OvSGTRは、完全にオープンなシーングラフ生成のためのトランスフォーマーベースのフレームワークである。我々のアプローチは、事前に定義されたカテゴリを超えて、オブジェクト(ノード)とその相互関係(エッジ)を共同で予測する。
論文参考訳（メタデータ） (2025-05-26T15:11:23Z)
Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文参考訳（メタデータ） (2025-03-22T05:04:12Z)
Contextual Self-paced Learning for Weakly Supervised Spatio-Temporal Video Grounding [24.650102499933514]
Weakly Supervised S-Temporal Video Grounding (WSTVG) に注目した。まず、WSTVGの最先端オブジェクト検出モデルの可能性について検討する。頑丈なゼロショット機能にもかかわらず、我々の適応には大きな制限がある。本稿では,これらの制約を克服するための新しいアプローチであるCoSPaLを提案する。
論文参考訳（メタデータ） (2025-01-28T16:25:10Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
OED: Towards One-stage End-to-End Dynamic Scene Graph Generation [18.374354844446962]
ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。本稿では,DSGGパイプラインを合理化する一段階のエンドツーエンドフレームワークOEDを提案する。このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
論文参考訳（メタデータ） (2024-05-27T08:18:41Z)
Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。 TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-14T12:30:58Z)
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文参考訳（メタデータ） (2023-05-26T15:13:44Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文参考訳（メタデータ） (2022-08-31T14:16:56Z)
TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文参考訳（メタデータ） (2022-03-30T16:31:49Z)
Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。 WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文参考訳（メタデータ） (2021-08-09T06:11:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。