論文の概要: Revisiting Learning-based Video Motion Magnification for Real-time
Processing
- arxiv url: http://arxiv.org/abs/2403.01898v1
- Date: Mon, 4 Mar 2024 09:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:16:50.265834
- Title: Revisiting Learning-based Video Motion Magnification for Real-time
Processing
- Title(参考訳): リアルタイム処理のための学習ベースビデオモーション・マグニフィケーションの再検討
- Authors: Hyunwoo Ha, Oh Hyun-Bin, Kim Jun-Seong, Kwon Byung-Ki, Kim Sung-Bin,
Linh-Tam Tran, Ji-Yun Kim, Sung-Ho Bae, Tae-Hyun Oh
- Abstract要約: 動画の動きを拡大する技術は、裸眼で見えないビデオの中で微妙な動きを捉え、増幅する技術である。
FLOPを4.2倍小さくし,従来よりも2.7倍高速なリアルタイム深層学習に基づく動き倍率モデルを提案する。
- 参考スコア(独自算出の注目度): 23.148430647367224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video motion magnification is a technique to capture and amplify subtle
motion in a video that is invisible to the naked eye. The deep learning-based
prior work successfully demonstrates the modelling of the motion magnification
problem with outstanding quality compared to conventional signal
processing-based ones. However, it still lags behind real-time performance,
which prevents it from being extended to various online applications. In this
paper, we investigate an efficient deep learning-based motion magnification
model that runs in real time for full-HD resolution videos. Due to the
specified network design of the prior art, i.e. inhomogeneous architecture, the
direct application of existing neural architecture search methods is
complicated. Instead of automatic search, we carefully investigate the
architecture module by module for its role and importance in the motion
magnification task. Two key findings are 1) Reducing the spatial resolution of
the latent motion representation in the decoder provides a good trade-off
between computational efficiency and task quality, and 2) surprisingly, only a
single linear layer and a single branch in the encoder are sufficient for the
motion magnification task. Based on these findings, we introduce a real-time
deep learning-based motion magnification model with4.2X fewer FLOPs and is 2.7X
faster than the prior art while maintaining comparable quality.
- Abstract(参考訳): ビデオモーション拡大(video motion magnification)は、肉眼では見えないビデオの微妙な動きを捉えて増幅するテクニックである。
深層学習に基づく先行研究は, 従来の信号処理法と比較して, 精度に優れた動き拡大問題のモデル化に成功している。
しかし、リアルタイムパフォーマンスには遅れており、様々なオンラインアプリケーションへの拡張を妨げている。
本稿では,フルHD解像度ビデオに対して,リアルタイムに動作する効率的な深層学習に基づく動き倍率モデルについて検討する。
先行技術の特定ネットワーク設計、すなわち不均一なアーキテクチャのため、既存のニューラルネットワーク探索法の直接適用は複雑である。
自動探索の代わりに,移動倍率タスクにおけるモジュールの役割と重要性について,モジュール単位のアーキテクチャモジュールを慎重に検討する。
2つの重要な発見
1)デコーダにおける潜在動作表現の空間分解能の低減は,計算効率とタスク品質のトレードオフを良好に行う。
2) 驚くべきことに, エンコーダ内の1つの線形層と1つの分岐のみが運動倍率タスクに十分である。
これらの結果に基づき,4.2倍のFLOPを小さくし,従来よりも2.7倍高速かつ同等の画質を維持したリアルタイム深層学習型動き倍率モデルを提案する。
関連論文リスト
- Flatten: Video Action Recognition is an Image Classification task [15.518011818978074]
新たなビデオ表現アーキテクチャであるFlattenは、プラグイン・アンド・プレイモジュールとして機能し、任意の画像理解ネットワークにシームレスに統合できる。
一般的に使用されるデータセットの実験では、Flattenの埋め込みはオリジナルのモデルよりも大幅なパフォーマンス向上をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-08-17T14:59:58Z) - Self-Supervised Motion Magnification by Backpropagating Through Optical
Flow [16.80592879244362]
本稿では,映像中の微妙な動きを拡大する自己教師型手法を提案する。
我々は、その新しい光学フローが所望の量でスケールするようにビデオを操作する。
本稿では、生成した映像の光学的流れを推定し、与えられた拡大係数から逸脱した場合の距離をペナルティ化する損失関数を提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:51Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - STB-VMM: Swin Transformer Based Video Motion Magnification [0.0]
この研究は、Swin Transformerに基づいた新しい最先端モデルを示す。
ノイズの少ない入力や、ノイズ、ぼかし、アーティファクトが先行技術よりも少ない品質の出力に耐性がある。
論文 参考訳(メタデータ) (2023-02-20T14:21:56Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2020-07-20T08:30:14Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。