論文の概要: Spatio-Temporal Self-Attention Network for Video Saliency Prediction
- arxiv url: http://arxiv.org/abs/2108.10696v1
- Date: Tue, 24 Aug 2021 12:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:16:57.569257
- Title: Spatio-Temporal Self-Attention Network for Video Saliency Prediction
- Title(参考訳): ビデオ・サリエンシ予測のための時空間自己注意ネットワーク
- Authors: Ziqiang Wang, Zhi Liu, Gongyang Li, Tianhong Zhang, Lihua Xu, Jijun
Wang
- Abstract要約: 3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
- 参考スコア(独自算出の注目度): 13.873682190242365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D convolutional neural networks have achieved promising results for video
tasks in computer vision, including video saliency prediction that is explored
in this paper. However, 3D convolution encodes visual representation merely on
fixed local spacetime according to its kernel size, while human attention is
always attracted by relational visual features at different time of a video. To
overcome this limitation, we propose a novel Spatio-Temporal Self-Attention 3D
Network (STSANet) for video saliency prediction, in which multiple
Spatio-Temporal Self-Attention (STSA) modules are employed at different levels
of 3D convolutional backbone to directly capture long-range relations between
spatio-temporal features of different time steps. Besides, we propose an
Attentional Multi-Scale Fusion (AMSF) module to integrate multi-level features
with the perception of context in semantic and spatio-temporal subspaces.
Extensive experiments demonstrate the contributions of key components of our
method, and the results on DHF1K, Hollywood-2, UCF, and DIEM benchmark datasets
clearly prove the superiority of the proposed model compared with all
state-of-the-art models.
- Abstract(参考訳): 3次元畳み込みニューラルネットワークは,コンピュータビジョンにおける映像タスクにおいて有望な結果を達成している。
しかし、3D畳み込みは、カーネルサイズに応じて固定された局所時空にのみ視覚表現をエンコードするが、人間の注意は常にビデオの異なる時間における関係的な視覚特徴に惹かれる。
この制限を克服するために,複数のstsaモジュールを異なる3次元畳み込みバックボーンのレベルに配置し,異なる時間ステップの時空間特徴間の長距離関係を直接捉える,ビデオ・サリエンシ予測のための新たな時空間自己着型3dネットワーク(stsanet)を提案する。
さらに,semantic と spatio-temporal 部分空間における文脈知覚とマルチレベル特徴を統合するための注目型マルチスケール融合(amsf)モジュールを提案する。
DHF1K, Hollywood-2, UCF, DIEMベンチマークで得られた結果から, 提案したモデルに比較して, 提案モデルの有効性が明らかとなった。
関連論文リスト
- RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z) - Interpreting video features: a comparison of 3D convolutional networks
and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。
以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文 参考訳(メタデータ) (2020-02-02T11:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。