論文の概要: Pair-wise Layer Attention with Spatial Masking for Video Prediction
- arxiv url: http://arxiv.org/abs/2311.11289v1
- Date: Sun, 19 Nov 2023 10:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 21:09:42.548721
- Title: Pair-wise Layer Attention with Spatial Masking for Video Prediction
- Title(参考訳): 映像予測のための空間マスキングによるペアワイズ層注意
- Authors: Ping Li, Chenhan Zhang, Zheng Yang, Xianghua Xu, Mingli Song
- Abstract要約: Pair-wise Layer Attention (PLA) モジュールを開発した。
また,Pair-wise Layer Attention with Spatial Masking (SM-SM) フレームワークをトランスレータ予測のために提案する。
- 参考スコア(独自算出の注目度): 46.17429511620538
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video prediction yields future frames by employing the historical frames and
has exhibited its great potential in many applications, e.g., meteorological
prediction, and autonomous driving. Previous works often decode the ultimate
high-level semantic features to future frames without texture details, which
deteriorates the prediction quality. Motivated by this, we develop a Pair-wise
Layer Attention (PLA) module to enhance the layer-wise semantic dependency of
the feature maps derived from the U-shape structure in Translator, by coupling
low-level visual cues and high-level features. Hence, the texture details of
predicted frames are enriched. Moreover, most existing methods capture the
spatiotemporal dynamics by Translator, but fail to sufficiently utilize the
spatial features of Encoder. This inspires us to design a Spatial Masking (SM)
module to mask partial encoding features during pretraining, which adds the
visibility of remaining feature pixels by Decoder. To this end, we present a
Pair-wise Layer Attention with Spatial Masking (PLA-SM) framework for video
prediction to capture the spatiotemporal dynamics, which reflect the motion
trend. Extensive experiments and rigorous ablation studies on five benchmarks
demonstrate the advantages of the proposed approach. The code is available at
GitHub.
- Abstract(参考訳): ビデオ予測は、過去のフレームを利用することで将来のフレームを生み出し、気象予測や自律運転など、多くの応用においてその大きな可能性を示した。
以前の作品は、テクスチャの詳細を伴わずに、究極のハイレベルなセマンティクス機能を将来のフレームにデコードすることが多く、予測品質が低下する。
そこで我々は,低レベルの視覚手がかりと高レベル特徴を結合することにより,u字型構造から派生した特徴マップの層別意味依存性を高めるペアワイズ層注意モジュールを開発した。
これにより、予測フレームのテクスチャ詳細が強化される。
さらに、既存の手法の多くはトランスレータによって時空間のダイナミクスを捉えるが、エンコーダの空間的特徴を十分に活用できない。
これにより、プリトレーニング中に部分的な符号化機能を隠蔽する空間マスキング(SM)モジュールを設計し、デコーダによる残像画素の可視性を高めることができる。
そこで本稿では,映像予測のための空間マスキング(pla-sm)フレームワークを用いて,動きの傾向を反映した時空間ダイナミクスを捉える。
5つのベンチマークに関する広範囲な実験と厳密なアブレーション研究は、提案手法の利点を示している。
コードはGitHubで入手できる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - A new way of video compression via forward-referencing using deep
learning [0.0]
本稿では,すでに符号化されたフレームから人間のポーズをモデル化し,新しい映像符号化手法を提案する。
提案手法は,従来の後方参照フレームの限界を克服できると考えられる。
実験結果から,提案手法は最大2.83dBのPSNRゲインと25.93%の残留保存をハイモーションビデオシーケンスに適用できることがわかった。
論文 参考訳(メタデータ) (2022-08-13T16:19:11Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。