論文の概要: STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond
- arxiv url: http://arxiv.org/abs/2204.09456v1
- Date: Wed, 20 Apr 2022 13:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 17:40:10.632612
- Title: STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond
- Title(参考訳): STAU:ビデオ予測などのための時空間認識ユニット
- Authors: Zheng Chang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, and Wen Gao
- Abstract要約: 本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 78.129039340528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video prediction aims to predict future frames by modeling the complex
spatiotemporal dynamics in videos. However, most of the existing methods only
model the temporal information and the spatial information for videos in an
independent manner but haven't fully explored the correlations between both
terms. In this paper, we propose a SpatioTemporal-Aware Unit (STAU) for video
prediction and beyond by exploring the significant spatiotemporal correlations
in videos. On the one hand, the motion-aware attention weights are learned from
the spatial states to help aggregate the temporal states in the temporal
domain. On the other hand, the appearance-aware attention weights are learned
from the temporal states to help aggregate the spatial states in the spatial
domain. In this way, the temporal information and the spatial information can
be greatly aware of each other in both domains, during which, the
spatiotemporal receptive field can also be greatly broadened for more reliable
spatiotemporal modeling. Experiments are not only conducted on traditional
video prediction tasks but also other tasks beyond video prediction, including
the early action recognition and object detection tasks. Experimental results
show that our STAU can outperform other methods on all tasks in terms of
performance and computation efficiency.
- Abstract(参考訳): ビデオ予測は、ビデオの複雑な時空間ダイナミクスをモデル化することで、将来のフレームを予測することを目的としている。
しかし,既存の手法の多くは,映像の時間的情報と空間的情報のみを独立的にモデル化しているが,両者の相関関係は十分に解明されていない。
本稿では,映像の時空間相関を探究し,映像予測のための時空間認識ユニット(stau)を提案する。
一方、運動認識の注意重みは空間状態から学習され、時間領域における時間状態の集約を支援する。
一方、空間領域における空間状態の集約を支援するために、時間状態から外観認識の注意重みを学習する。
このように、両領域において時空間情報と空間情報は相互に大きく認識され、その間、時空間受容場はより信頼性の高い時空間モデリングのために大きく拡張される。
実験は、従来のビデオ予測タスクだけでなく、初期のアクション認識やオブジェクト検出タスクを含む、ビデオ予測以外のタスクでも行われている。
実験結果から,STAUは性能および計算効率の面で,全てのタスクにおける他の手法よりも優れていることがわかった。
関連論文リスト
- Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos [10.50306784245168]
ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
論文 参考訳(メタデータ) (2022-10-07T16:09:07Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。