論文の概要: Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior
- arxiv url: http://arxiv.org/abs/2406.04873v2
- Date: Sun, 10 Nov 2024 10:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:46.978592
- Title: Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior
- Title(参考訳): Ada-VE:アダプティブモーションを用いたトレーニング不要の一貫性ビデオ編集
- Authors: Tanvir Mahmud, Mustafa Munir, Radu Marculescu, Diana Marculescu,
- Abstract要約: ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。
本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。
これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
- 参考スコア(独自算出の注目度): 13.595032265551184
- License:
- Abstract: Video-to-video synthesis poses significant challenges in maintaining character consistency, smooth temporal transitions, and preserving visual quality during fast motion. While recent fully cross-frame self-attention mechanisms have improved character consistency across multiple frames, they come with high computational costs and often include redundant operations, especially for videos with higher frame rates. To address these inefficiencies, we propose an adaptive motion-guided cross-frame attention mechanism that selectively reduces redundant computations. This enables a greater number of cross-frame attentions over more frames within the same computational budget, thereby enhancing both video quality and temporal coherence. Our method leverages optical flow to focus on moving regions while sparsely attending to stationary areas, allowing for the joint editing of more frames without increasing computational demands. Traditional frame interpolation techniques struggle with motion blur and flickering in intermediate frames, which compromises visual fidelity. To mitigate this, we introduce KV-caching for jointly edited frames, reusing keys and values across intermediate frames to preserve visual quality and maintain temporal consistency throughout the video. With our adaptive cross-frame self-attention approach, we achieve a threefold increase in the number of keyframes processed compared to existing methods, all within the same computational budget as fully cross-frame attention baselines. This results in significant improvements in prediction accuracy and temporal consistency, outperforming state-of-the-art approaches. Code will be made publicly available at https://github.com/tanvir-utexas/AdaVE/tree/main
- Abstract(参考訳): ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。
最近の完全にクロスフレームな自己認識機構は、複数のフレーム間での文字の一貫性を改善しているが、計算コストが高く、特にフレームレートの高いビデオの場合、しばしば冗長な操作を含む。
これらの非効率性に対処するために、冗長計算を選択的に削減する適応的な動き誘導型クロスフレームアテンション機構を提案する。
これにより、同じ計算予算内でより多くのフレームにまたがるクロスフレームの注目がより多くなり、ビデオ品質と時間的コヒーレンスの両方が向上する。
本手法は,光学的フローを活用して静止領域に疎通しながら移動領域に集中することにより,計算要求を増大させることなく,より多くのフレームを共同で編集することを可能にする。
従来のフレーム補間技術は、中間フレームにおける動きのぼやけやひねりに悩まされ、視覚的忠実さを損なう。
これを軽減するために,共同編集フレームのKVキャッシュを導入し,中間フレーム間でキーと値を再利用して視覚的品質を保ち,ビデオ全体の時間的一貫性を維持する。
適応型クロスフレーム・セルフアテンション・アプローチにより、既存の手法と比較して処理されるキーフレームの数が3倍に増加し、全て完全にクロスフレームのアテンションベースラインと同じ計算予算内で達成する。
その結果、予測精度と時間的一貫性が大幅に向上し、最先端のアプローチよりも優れた結果が得られた。
コードはhttps://github.com/tanvir-utexas/AdaVE/tree/mainで公開される。
関連論文リスト
- VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Unifying Motion Deblurring and Frame Interpolation with Events [11.173687810873433]
フレームベースのカメラのスローシャッター速度と長時間露光は、しばしばフレーム間の情報の視覚的曖昧さと損失を引き起こし、キャプチャされたビデオの全体的な品質を劣化させる。
イベントの極めて低レイテンシを利用して、動きのぼやけを緩和し、中間フレーム予測を容易にする、ぼやけたビデオ強調のためのイベントベースモーションデブロアリングとフレーム拡張の統一フレームワークを提案する。
ぼやけたフレーム,潜入画像,イベントストリーム間の相互制約を探索することにより,実世界のぼやけたビデオやイベントによるネットワークトレーニングを可能にする,自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-23T03:43:12Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。