論文の概要: FastVMT: Eliminating Redundancy in Video Motion Transfer
- arxiv url: http://arxiv.org/abs/2602.05551v1
- Date: Thu, 05 Feb 2026 11:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.903059
- Title: FastVMT: Eliminating Redundancy in Video Motion Transfer
- Title(参考訳): FastVMT: ビデオモーション転送における冗長性の排除
- Authors: Yue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang,
- Abstract要約: ビデオモーション転送は、参照ビデオで観察された動きパターンを転送しながら、テキストプロンプトに従って視覚コンテンツを生成することによって、ビデオを合成することを目的としている。
最近の手法では拡散変換器(DiT)アーキテクチャが主流である。
FastVMTは、生成したビデオの視覚的忠実度や時間的一貫性を低下させることなく、3.43倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 67.23955701588211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.
- Abstract(参考訳): ビデオモーション転送は、参照ビデオで観察された動きパターンを転送しながら、テキストプロンプトに従って視覚コンテンツを生成することによって、ビデオを合成することを目的としている。
最近の手法では拡散変換器(DiT)アーキテクチャが主流である。
良好なランタイムを実現するために、いくつかの手法がDiTの計算を高速化しようと試みたが、非効率な構造源に対処できなかった。
運動冗長性は,フレーム間運動が小さく滑らかであるという事実を反映していないため生じるものであり,拡散軌道に沿って勾配がゆっくりと変化することを無視した場合に勾配冗長性が発生する。
動きの冗長性を軽減するため, 干渉重みが不必要に離れた画像領域に計算されないように, 対応する注意層を局所的に隠蔽する。
勾配の冗長性を利用するために,従来の拡散段階からの勾配を再利用し,不規則な勾配計算を省略する最適化手法を設計する。
平均して、FastVMTは生成したビデオの視覚的忠実度や時間的一貫性を低下させることなく3.43倍のスピードアップを達成する。
関連論文リスト
- BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文 参考訳(メタデータ) (2025-09-17T07:58:36Z) - AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration [45.62669899834342]
拡散変換器(DiT)は高品質なビデオを生成するのに有効であることが証明されているが、高い計算コストによって妨げられている。
本稿では,ビデオDiTの高速化を目的としたトレーニングフリーでモデルに依存しない非対称リダクション・アンド・リカバリ法(AsymRnR)を提案する。
論文 参考訳(メタデータ) (2024-12-16T12:28:22Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。