論文の概要: Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing
- arxiv url: http://arxiv.org/abs/2410.12526v1
- Date: Wed, 16 Oct 2024 13:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:11.545886
- Title: Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing
- Title(参考訳): 映像編集における意図しない変化の緩和による安定化映像の制作
- Authors: Mingce Guo, Jingxuan He, Shengeng Tang, Zhangye Wang, Lechao Cheng,
- Abstract要約: 本研究は、多種多様な安定したターゲット映像を柔軟に生成する改良されたコンセプト拡張ビデオ編集手法を提案する。
このフレームワークには、概念強化されたテキストインバージョンと、二重の事前監視機構が含まれる。
包括的評価により,本手法はより安定的で生活的なビデオを生成し,最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 12.38953947065143
- License:
- Abstract: Text-driven video editing utilizing generative diffusion models has garnered significant attention due to their potential applications. However, existing approaches are constrained by the limited word embeddings provided in pre-training, which hinders nuanced editing targeting open concepts with specific attributes. Directly altering the keywords in target prompts often results in unintended disruptions to the attention mechanisms. To achieve more flexible editing easily, this work proposes an improved concept-augmented video editing approach that generates diverse and stable target videos flexibly by devising abstract conceptual pairs. Specifically, the framework involves concept-augmented textual inversion and a dual prior supervision mechanism. The former enables plug-and-play guidance of stable diffusion for video editing, effectively capturing target attributes for more stylized results. The dual prior supervision mechanism significantly enhances video stability and fidelity. Comprehensive evaluations demonstrate that our approach generates more stable and lifelike videos, outperforming state-of-the-art methods.
- Abstract(参考訳): 生成拡散モデルを利用したテキスト駆動ビデオ編集は、その潜在的な応用により大きな注目を集めている。
しかし、既存のアプローチは事前学習で提供される限定的な単語埋め込みによって制約されており、特定の属性を持つオープンな概念をターゲットとしたニュアンスな編集を妨げている。
ターゲットのプロンプトでキーワードを直接変更すると、しばしば注意機構に対する意図しない中断が発生する。
よりフレキシブルな編集を容易にするために,抽象的概念対を考案し,多種多様で安定したターゲット映像を柔軟に生成する改良されたビデオ編集手法を提案する。
特に、このフレームワークには、概念拡張されたテキストインバージョンと、二重の事前監視機構が含まれる。
前者は動画編集における安定した拡散のプラグアンドプレイ誘導を可能にし、よりスタイリングされた結果のターゲット属性を効果的にキャプチャする。
二重先行監視機構はビデオの安定性と忠実度を大幅に向上させる。
包括的評価により,本手法はより安定的で生活的なビデオを生成し,最先端の手法より優れていることが示された。
関連論文リスト
- Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing [48.238213651343784]
ビデオスコアの蒸留は、ターゲットテキストで示される新しいコンテンツを導入することができるが、構造や動きのずれを引き起こすこともある。
本稿では, 原ビデオの時空間自己相似性と, スコア蒸留中の編集ビデオとを一致させることを提案する。
我々のアプローチはモデルに依存しないもので、カスケードと非カスケードの両方の動画拡散フレームワークに適用できる。
論文 参考訳(メタデータ) (2024-03-18T17:38:53Z) - StableVideo: Text-driven Consistency-aware Diffusion Video Editing [24.50933856309234]
拡散に基づく手法は、リアルな画像やビデオを生成することができるが、ビデオ内の既存のオブジェクトを編集するのに苦労し、その外観は時間の経過とともに保たれる。
本稿では、既存のテキスト駆動拡散モデルへの時間的依存を導入し、編集対象に対して一貫した外観を生成する。
我々は,この機構,すなわちStableVideoに基づくテキスト駆動のビデオ編集フレームワークを構築し,一貫性を意識したビデオ編集を実現する。
論文 参考訳(メタデータ) (2023-08-18T14:39:16Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。