論文の概要: Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity
and Temporal-Consistency Video Prediction
- arxiv url: http://arxiv.org/abs/2002.09905v2
- Date: Fri, 22 May 2020 14:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:46:14.210361
- Title: Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity
and Temporal-Consistency Video Prediction
- Title(参考訳): 高忠実度・時間一貫性映像予測のための時空間多重周波数解析の探索
- Authors: Beibei Jin, Yu Hu, Qiankun Tang, Jingyu Niu, Zhiping Shi, Yinhe Han,
Xiaowei Li
- Abstract要約: 本稿では,マルチレベルウェーブレット解析に基づく映像予測ネットワークを提案し,空間的・時間的情報を統一的に扱う。
本モデルでは,最先端の作業に対する忠実度と時間的整合性に大きな改善が見られた。
- 参考スコア(独自算出の注目度): 12.84409065286371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is a pixel-wise dense prediction task to infer future frames
based on past frames. Missing appearance details and motion blur are still two
major problems for current predictive models, which lead to image distortion
and temporal inconsistency. In this paper, we point out the necessity of
exploring multi-frequency analysis to deal with the two problems. Inspired by
the frequency band decomposition characteristic of Human Vision System (HVS),
we propose a video prediction network based on multi-level wavelet analysis to
deal with spatial and temporal information in a unified manner. Specifically,
the multi-level spatial discrete wavelet transform decomposes each video frame
into anisotropic sub-bands with multiple frequencies, helping to enrich
structural information and reserve fine details. On the other hand, multi-level
temporal discrete wavelet transform which operates on time axis decomposes the
frame sequence into sub-band groups of different frequencies to accurately
capture multi-frequency motions under a fixed frame rate. Extensive experiments
on diverse datasets demonstrate that our model shows significant improvements
on fidelity and temporal consistency over state-of-the-art works.
- Abstract(参考訳): ビデオ予測は、過去のフレームに基づいて将来のフレームを推測するピクセルワイドな予測タスクである。
外観の詳細と動きのぼけは、現在の予測モデルでは依然として2つの大きな問題であり、画像の歪みと時間的矛盾をもたらす。
本稿では,この2つの問題に対処するためにマルチ周波数解析の必要性を指摘する。
HVS(Human Vision System)の周波数帯域分解特性に着想を得て,マルチレベルウェーブレット解析に基づく映像予測ネットワークを提案する。
具体的には、マルチレベル空間離散ウェーブレット変換は、各ビデオフレームを複数の周波数を持つ異方性サブバンドに分解し、構造情報を強化し詳細を保存する。
一方、時間軸で動作する多段階離散ウェーブレット変換では、フレーム列を異なる周波数のサブバンドグループに分解し、固定フレームレートで正確にマルチ周波数動作をキャプチャする。
多様なデータセットに対する大規模な実験により、我々のモデルは最先端の作業に対して忠実さと時間的一貫性を著しく改善したことを示す。
関連論文リスト
- Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer [18.459822172890473]
骨格の周波数表現を除去するための周波数認識型アテンションモジュールを提案する。
また、周波数特徴を持つ空間特徴を組み込む混合変圧器アーキテクチャも開発している。
FreqMiXFormerは3つの一般的な骨格認識データセットでSOTAを上回っている。
論文 参考訳(メタデータ) (2024-07-17T05:47:27Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - MultiWave: Multiresolution Deep Architectures through Wavelet
Decomposition for Multivariate Time Series Prediction [6.980076213134384]
MultiWaveは、信号の固有周波数で動作するコンポーネントを組み込むことで、ディープラーニング時系列モデルを強化する新しいフレームワークである。
我々は、MultiWaveが重要な特徴とその周波数成分を一貫して識別し、研究対象のアプリケーションに対する貴重な洞察を提供することを示す。
論文 参考訳(メタデータ) (2023-06-16T20:07:15Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Towards Interpretable Video Super-Resolution via Alternating
Optimization [115.85296325037565]
低フレームのぼかしビデオから高フレームの高解像度のシャープビデオを生成することを目的とした実時間ビデオ超解法(STVSR)問題について検討する。
本稿では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T21:34:05Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z) - WaveFill: A Wavelet-based Generation Network for Image Inpainting [57.012173791320855]
WaveFillはウェーブレットベースの塗装ネットワークで、画像を複数の周波数帯域に分解する。
WaveFillは、空間情報を自然に保存する離散ウェーブレット変換(DWT)を用いて画像を分解する。
低周波帯にL1再構成損失を、高周波帯に敵対損失を施し、それによって周波数間紛争を効果的に軽減する。
論文 参考訳(メタデータ) (2021-07-23T04:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。