論文の概要: Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior
- arxiv url: http://arxiv.org/abs/2406.04873v1
- Date: Fri, 7 Jun 2024 12:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:11:13.806110
- Title: Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior
- Title(参考訳): Ada-VE:アダプティブモーションを用いたトレーニング不要の一貫性ビデオ編集
- Authors: Tanvir Mahmud, Mustafa Munir, Radu Marculescu, Diana Marculescu,
- Abstract要約: ビデオ間合成モデルは、フレーム間の一貫したキャラクタ生成の確保、スムーズな時間遷移の維持、高速動作時の品質維持といった課題に直面している。
完全クロスフレームの自己保持機構の導入により、文字の一貫性が向上したが、これは計算複雑性の増大によるものである。
本稿では,意味的詳細と時間的一貫性を保ちながら,複雑度を大幅に低減する適応型動き誘導型クロスフレームアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 13.595032265551184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-video synthesis models face significant challenges, such as ensuring consistent character generation across frames, maintaining smooth temporal transitions, and preserving quality during fast motion. The introduction of joint fully cross-frame self-attention mechanisms has improved character consistency, but this comes at the cost of increased computational complexity. This full cross-frame self-attention mechanism also incorporates redundant details and limits the number of frames that can be jointly edited due to its computational cost. Moreover, the lack of frames in cross-frame attention adversely affects temporal consistency and visual quality. To address these limitations, we propose a new adaptive motion-guided cross-frame attention mechanism that drastically reduces complexity while preserving semantic details and temporal consistency. Specifically, we selectively incorporate the moving regions of successive frames in cross-frame attention and sparsely include stationary regions based on optical flow sampling. This technique allows for an increased number of jointly edited frames without additional computational overhead. For longer duration of video editing, existing methods primarily focus on frame interpolation or flow-warping from jointly edited keyframes, which often results in blurry frames or reduced temporal consistency. To improve this, we introduce KV-caching of jointly edited frames and reuse the same KV across all intermediate frames, significantly enhancing both intermediate frame quality and temporal consistency. Overall, our motion-sampling method enables the use of around three times more keyframes than existing joint editing methods while maintaining superior prediction quality. Ada-VE achieves up to 4x speed-up when using fully-extended self-attention across 40 frames for joint editing, without compromising visual quality or temporal consistency.
- Abstract(参考訳): ビデオ間合成モデルは、フレーム間の一貫したキャラクタ生成の確保、スムーズな時間遷移の維持、高速動作時の品質維持など、重要な課題に直面している。
完全クロスフレームの自己保持機構の導入により、文字の一貫性が向上したが、これは計算複雑性の増大によるものである。
この完全なクロスフレームの自己保持機構は冗長な詳細を組み込んでおり、計算コストのために共同で編集できるフレームの数を制限している。
さらに、フレーム間の注意の欠如は、時間的一貫性と視覚的品質に悪影響を及ぼす。
これらの制約に対処するために、意味的詳細と時間的一貫性を保ちながら、複雑さを大幅に低減する適応的な動き誘導型クロスフレームアテンション機構を提案する。
具体的には、連続するフレームの移動領域をクロスフレームアテンションに選択的に取り込み、光学的フローサンプリングに基づいて静止領域をわずかに含みます。
この技術により、余分な計算オーバーヘッドを伴わずに、共同で編集されたフレームの数が増加する。
ビデオ編集の長い期間、既存の手法はフレーム補間や、共同編集されたキーフレームからのフローワープに重点を置いており、しばしばぼやけたフレームや時間的一貫性を低下させる。
これを改善するために、共同編集フレームのKVキャッシュを導入し、すべての中間フレームで同じKVを再利用し、中間フレームの品質と時間的一貫性の両方を大幅に向上させる。
本手法は,従来の共同編集手法の約3倍のキーフレームの使用が可能であり,予測精度は良好である。
Ada-VEは、視覚的品質や時間的一貫性を損なうことなく、40フレームにわたって完全に拡張された自己アテンションを使用する場合、最大4倍のスピードアップを達成する。
関連論文リスト
- VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Unifying Motion Deblurring and Frame Interpolation with Events [11.173687810873433]
フレームベースのカメラのスローシャッター速度と長時間露光は、しばしばフレーム間の情報の視覚的曖昧さと損失を引き起こし、キャプチャされたビデオの全体的な品質を劣化させる。
イベントの極めて低レイテンシを利用して、動きのぼやけを緩和し、中間フレーム予測を容易にする、ぼやけたビデオ強調のためのイベントベースモーションデブロアリングとフレーム拡張の統一フレームワークを提案する。
ぼやけたフレーム,潜入画像,イベントストリーム間の相互制約を探索することにより,実世界のぼやけたビデオやイベントによるネットワークトレーニングを可能にする,自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-23T03:43:12Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。