論文の概要: Zero-Shot Video Editing through Adaptive Sliding Score Distillation
- arxiv url: http://arxiv.org/abs/2406.04888v1
- Date: Fri, 7 Jun 2024 12:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:11:13.791446
- Title: Zero-Shot Video Editing through Adaptive Sliding Score Distillation
- Title(参考訳): 適応スライディングスコア蒸留によるゼロショット映像編集
- Authors: Lianghan Zhu, Yanqi Bao, Jing Huo, Jing Wu, Yu-Kun Lai, Wenbin Li, Yang Gao,
- Abstract要約: テキストベースのビデオ生成(T2V)は、制御可能なビデオ編集の研究に再び関心を寄せている。
本研究の目的は、スコアの蒸留に基づくロバストなビデオベースの編集パラダイムを探求することである。
具体的には、T2V監視の安定性を高めるだけでなく、グローバルおよびローカルなビデオガイダンスも取り入れた適応スライディングスコア蒸留戦略を提案する。
- 参考スコア(独自算出の注目度): 51.57440923362033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The burgeoning field of text-based video generation (T2V) has reignited significant interest in the research of controllable video editing. Although pre-trained T2V-based editing models have achieved efficient editing capabilities, current works are still plagued by two major challenges. Firstly, the inherent limitations of T2V models lead to content inconsistencies and motion discontinuities between frames. Secondly, the notorious issue of over-editing significantly disrupts areas that are intended to remain unaltered. To address these challenges, our work aims to explore a robust video-based editing paradigm based on score distillation. Specifically, we propose an Adaptive Sliding Score Distillation strategy, which not only enhances the stability of T2V supervision but also incorporates both global and local video guidance to mitigate the impact of generation errors. Additionally, we modify the self-attention layers during the editing process to further preserve the key features of the original video. Extensive experiments demonstrate that these strategies enable us to effectively address the aforementioned challenges, achieving superior editing performance compared to existing state-of-the-art methods.
- Abstract(参考訳): テキストベースのビデオ生成(T2V)の急成長する分野は、制御可能なビデオ編集の研究に再び関心を寄せている。
トレーニング済みのT2Vベースの編集モデルは効率的な編集機能を実現しているが、現在の作業は2つの大きな課題に悩まされている。
第一に、T2Vモデル固有の制限は、フレーム間のコンテンツの不整合と運動の不連続をもたらす。
第二に、過剰編集という悪名高い問題は、未解決の領域を著しく破壊する。
これらの課題に対処するため,本研究は,スコア蒸留に基づくロバストなビデオベースの編集パラダイムを探求することを目的としている。
具体的には、T2V監視の安定性を高めるだけでなく、グローバルとローカルの両方の動画誘導を取り入れた適応スライディングスコア蒸留方式を提案する。
さらに,編集中の自己注意層を修正して,オリジナルビデオの重要な特徴をさらに保存する。
これらの戦略により,既存の最先端手法と比較して編集性能が向上し,上記の課題に効果的に対処できることが実証された。
関連論文リスト
- COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。
AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。
評価の結果,AnyV2Vは自動評価や人的評価において,他のベースライン法よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。