論文の概要: Gaussian Kernel-based Cross Modal Network for Spatio-Temporal Video
Grounding
- arxiv url: http://arxiv.org/abs/2207.00744v1
- Date: Sat, 2 Jul 2022 05:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 14:39:02.630959
- Title: Gaussian Kernel-based Cross Modal Network for Spatio-Temporal Video
Grounding
- Title(参考訳): 時空間ビデオグラウンドのためのガウスカーネルを用いたクロスモーダルネットワーク
- Authors: Zeyu Xiong (1), Daizong Liu (2), Pan Zhou (1) ((1) The Hubei
Engineering Research Center on Big Data Security, School of Cyber Science and
Engineering, Huazhong University of Science and Technology, (2) Wangxuan
Institute of Computer Technology, Peking University)
- Abstract要約: 時空間ビデオグラウンド(STVG)のためのアンカーフリーフレームワークを提案する。
学習したガウスカーネルベースの各ビデオフレームのヒートマップを用いて、クエリ関連のオブジェクトを探索する。
フレーム接地時の空間的関係と時間的関係を両立させるために,混合シリアル接続網と並列接続網を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial-Temporal Video Grounding (STVG) is a challenging task which aims to
localize the spatio-temporal tube of the interested object semantically
according to a natural language query. Most previous works not only severely
rely on the anchor boxes extracted by Faster R-CNN, but also simply regard the
video as a series of individual frames, thus lacking their temporal modeling.
Instead, in this paper, we are the first to propose an anchor-free framework
for STVG, called Gaussian Kernel-based Cross Modal Network (GKCMN).
Specifically, we utilize the learned Gaussian Kernel-based heatmaps of each
video frame to locate the query-related object. A mixed serial and parallel
connection network is further developed to leverage both spatial and temporal
relations among frames for better grounding. Experimental results on VidSTG
dataset demonstrate the effectiveness of our proposed GKCMN.
- Abstract(参考訳): STVG(Spatial-Temporal Video Grounding)は,対象物の時空間管を自然言語クエリに従って意味的にローカライズすることを目的とした課題である。
これまでのほとんどの作品は、Faster R-CNNが抽出したアンカーボックスに大きく依存するだけでなく、ビデオは一連の個々のフレームと見なすだけで、時間的モデリングに欠けていた。
本稿では,ガウス・ケルネルをベースとしたCross Modal Network (GKCMN) と呼ばれる,STVGのアンカーフリーフレームワークを提案する。
具体的には,各ビデオフレームのガウスカーネルに基づくヒートマップを用いて,クエリ関連オブジェクトの探索を行う。
さらに、フレーム間の空間的関係と時間的関係を両立させるために、混合シリアルおよび並列接続ネットワークを開発した。
vidstgデータセットの実験結果は,提案するgkcmnの有効性を示す。
関連論文リスト
- Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - STAR-GNN: Spatial-Temporal Video Representation for Content-based
Retrieval [39.50179338831056]
本稿ではSTAR-GNNというビデオ特徴表現学習フレームワークを提案する。
プラグイン可能なグラフニューラルネットワークコンポーネントをマルチスケールの格子特徴グラフに適用する。
本稿では,STAR-GNNがビデオフレームシーケンスに動的アテンション機構を効果的に実装していることを示す。
論文 参考訳(メタデータ) (2022-08-15T01:47:50Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Spatial Aggregation and Temporal Convolution Networks for Real-time
Kriging [3.4386226615580107]
SATCNは、モデル仕様を必要とせずに、様々なデータセットに対してテンポラリグを実行する、普遍的で柔軟なフレームワークである。
我々は時間的畳み込みネットワークによってノードをキャプチャし、モデルがさまざまなサイズのデータに対処できるようにする。
我々は、交通や気候記録を含む3つの実世界のデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-24T18:43:07Z) - Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring [39.63844562890704]
リアルタイムの劣化は、空間的および時間的に変化するぼやけ自体の複雑さのため、依然として困難な課題である。
我々はRNN細胞に残留密度ブロックを適用して、現在のフレームの空間的特徴を効率的に抽出する。
我々は、コ軸ビームスプリッタ取得システムを用いて、ペア/シャープのビデオクリップを収集し、新しいデータセット(BSD)をコミュニティにコントリビュートする。
論文 参考訳(メタデータ) (2021-06-30T12:53:02Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。