論文の概要: EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering
within Transformer
- arxiv url: http://arxiv.org/abs/2312.04152v1
- Date: Thu, 7 Dec 2023 09:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:27:50.097988
- Title: EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering
within Transformer
- Title(参考訳): EulerMormer: Transformer内での動的フィルタリングによるロバストウレリア運動拡大
- Authors: Fei Wang, Dan Guo, Kun Li, Meng Wang
- Abstract要約: ビデオモーション・マグニフィケーション(VMM)は、人間の視覚知覚能力の解像度限界を破ることを目的としている。
本稿では,静的場適応型復調を実現するための新しい動的フィルタリング手法を提案する。
我々は、ユーラーモーマーがユーレリア視点からより堅牢なビデオモーション倍率を達成するための広範な実験を実証する。
- 参考スコア(独自算出の注目度): 30.470336098766765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Motion Magnification (VMM) aims to break the resolution limit of human
visual perception capability and reveal the imperceptible minor motion that
contains valuable information in the macroscopic domain. However, challenges
arise in this task due to photon noise inevitably introduced by photographic
devices and spatial inconsistency in amplification, leading to flickering
artifacts in static fields and motion blur and distortion in dynamic fields in
the video. Existing methods focus on explicit motion modeling without
emphasizing prioritized denoising during the motion magnification process. This
paper proposes a novel dynamic filtering strategy to achieve static-dynamic
field adaptive denoising. Specifically, based on Eulerian theory, we separate
texture and shape to extract motion representation through inter-frame shape
differences, expecting to leverage these subdivided features to solve this task
finely. Then, we introduce a novel dynamic filter that eliminates noise cues
and preserves critical features in the motion magnification and amplification
generation phases. Overall, our unified framework, EulerMormer, is a pioneering
effort to first equip with Transformer in learning-based VMM. The core of the
dynamic filter lies in a global dynamic sparse cross-covariance attention
mechanism that explicitly removes noise while preserving vital information,
coupled with a multi-scale dual-path gating mechanism that selectively
regulates the dependence on different frequency features to reduce spatial
attenuation and complement motion boundaries. We demonstrate extensive
experiments that EulerMormer achieves more robust video motion magnification
from the Eulerian perspective, significantly outperforming state-of-the-art
methods. The source code is available at
https://github.com/VUT-HFUT/EulerMormer.
- Abstract(参考訳): ビデオモーション・マグニフィケーション(VMM)は、人間の視覚知覚能力の解像度限界を破り、マクロ領域で貴重な情報を含む知覚できない小さな動きを明らかにすることを目的としている。
しかし、撮影装置によって必然的に導入される光子ノイズと増幅時の空間的不整合により、静的場におけるアーティファクトのひらめき、動画内の動的場における動きのぼやけや歪みが問題となる。
既存の手法では, 動き拡大過程における優先順位付きデノイジングを強調することなく, 明示的な動きモデリングに焦点をあてている。
本稿では,静的力学場適応化を実現するための新しい動的フィルタリング手法を提案する。
具体的には, ユーレリア理論に基づいて, フレーム間形状の違いによる動きの表現を抽出するためにテクスチャと形状を分離し, この課題を細かく解くためにこれらの細分化した特徴を活用することを期待する。
次に, 雑音を除去し, 動き拡大, 増幅生成相の重要な特徴を保存できる新しい動的フィルタを提案する。
全体として、我々の統合フレームワークであるEulerMormerは、学習ベースのVMMでTransformerと最初に装備するための先駆的な取り組みです。
ダイナミックフィルタのコアは、重要な情報を保持しながらノイズを明示的に除去するグローバルなダイナミックスパース・クロスコ分散アテンション機構と、異なる周波数特性への依存を選択的に規制し、空間減衰を低減し、運動境界を補完するマルチスケールのデュアルパスゲーティング機構にある。
我々はEulerMormerがユーレリアの視点からより堅牢な動画モーション倍率を実現し、最先端の手法を著しく上回る実験を行った。
ソースコードはhttps://github.com/VUT-HFUT/EulerMormer.comで入手できる。
関連論文リスト
- Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation [36.098738197088124]
本研究では,遅延ビデオ生成を高速化する拡散再利用モードネットワークを提案する。
初期のデノナイジングステップの粗いきめのノイズは、連続するビデオフレーム間で高い動きの一貫性を示す。
Mo博士は、慎重に設計された軽量なフレーム間の動きを取り入れることで、これらの粗いノイズを次のフレームに伝播させる。
論文 参考訳(メタデータ) (2024-09-19T07:50:34Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - SMURF: Continuous Dynamics for Motion-Deblurring Radiance Fields [14.681688453270523]
本稿では,ニューラル常微分方程式(Neural-ODE)を用いて連続カメラの動きをモデル化する新しい手法である,逐次的動き理解放射場(SMURF)を提案する。
我々のモデルは、ベンチマークデータセットに対して厳密に評価され、定量的かつ定性的に最先端のパフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-03-12T11:32:57Z) - Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture [42.51987004849891]
Video Motion Magnificationは、マクロ世界の物体の微妙で知覚できない動き情報を明らかにすることを目的としている。
動作拡大のための周波数デカップリングの新しいパラダイムであるFD4MMについて述べる。
FD4MMはFLOPを1.63$times$に削減し、推論速度を1.68$times$に向上させる。
論文 参考訳(メタデータ) (2024-03-12T06:07:29Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression
Recognition [1.8604727699812171]
DFERタスクにおけるノイズフレームの干渉を低減するために、ノイズロスト動的表情認識ネットワーク(NR-DFERNet)を提案する。
具体的には、空間的段階において、より識別的な空間的特徴を学習するために静的特徴に動的特徴を導入する動的静的融合モジュール(DSF)を考案する。
対象の無関係なフレームの影響を抑えるために,時間段階の変換器に新しい動的クラストークン(DCT)を導入する。
論文 参考訳(メタデータ) (2022-06-10T10:17:30Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。