論文の概要: DNI: Dilutional Noise Initialization for Diffusion Video Editing
- arxiv url: http://arxiv.org/abs/2409.13037v1
- Date: Thu, 19 Sep 2024 18:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:14:24.707684
- Title: DNI: Dilutional Noise Initialization for Diffusion Video Editing
- Title(参考訳): DNI:拡散ビデオ編集のための希釈音初期化
- Authors: Sunjae Yoon, Gwanhyeong Koo, Ji Woo Hong, Chang D. Yoo,
- Abstract要約: 本稿では,非剛性編集を含む精密かつダイナミックな修正が可能なDNI(Dilutional Noise Initialization)フレームワークを提案する。
DNIは「ノイズ希釈」の概念を導入し、入力ビデオによって課される構造的剛性を和らげるために編集される領域の潜時雑音にさらなるノイズを加える。
- 参考スコア(独自算出の注目度): 22.308638156328968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based diffusion video editing systems have been successful in performing edits with high fidelity and textual alignment. However, this success is limited to rigid-type editing such as style transfer and object overlay, while preserving the original structure of the input video. This limitation stems from an initial latent noise employed in diffusion video editing systems. The diffusion video editing systems prepare initial latent noise to edit by gradually infusing Gaussian noise onto the input video. However, we observed that the visual structure of the input video still persists within this initial latent noise, thereby restricting non-rigid editing such as motion change necessitating structural modifications. To this end, this paper proposes Dilutional Noise Initialization (DNI) framework which enables editing systems to perform precise and dynamic modification including non-rigid editing. DNI introduces a concept of `noise dilution' which adds further noise to the latent noise in the region to be edited to soften the structural rigidity imposed by input video, resulting in more effective edits closer to the target prompt. Extensive experiments demonstrate the effectiveness of the DNI framework.
- Abstract(参考訳): テキストベースの拡散ビデオ編集システムは、高い忠実度とテキストアライメントの編集に成功している。
しかし、この成功は、入力ビデオの本来の構造を保ちながら、スタイル転送やオブジェクトオーバーレイのような剛体型編集に限られる。
この制限は、拡散ビデオ編集システムで使われる初期潜時雑音に起因している。
拡散ビデオ編集システムは、ガウスノイズを徐々に入力ビデオに注入して、初期潜時ノイズを作成して編集する。
しかし,入力ビデオの視覚的構造は,この初期潜時雑音内に留まり,運動変化などの非剛性編集が構造的修正を必要とすることを観察した。
そこで本稿では,非剛性編集を含む精密かつダイナミックな修正を行うことのできるDNI(Dilutional Noise Initialization)フレームワークを提案する。
DNIは「ノイズ希釈」という概念を導入し、入力ビデオによって課される構造的剛性を和らげるために編集対象領域の潜在雑音にさらなるノイズを加えることで、より効果的な編集を目標プロンプトに近づける。
大規模な実験は、DNIフレームワークの有効性を実証している。
関連論文リスト
- TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion [19.969947635371]
Videoshopは、ローカライズされたセマンティック編集のためのトレーニング不要のビデオ編集アルゴリズムである。
ユーザーはオブジェクトの追加や削除、セマンティックな変更、ストック写真をビデオに挿入したり、場所や外観を細かくコントロールできる。
Videoshopは、評価基準10を用いて、2つの編集ベンチマークで6つのベースラインに対して高い品質の編集を行う。
論文 参考訳(メタデータ) (2024-03-21T17:59:03Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - Neutral Editing Framework for Diffusion-based Video Editing [24.370584544151424]
本稿では,複雑な非剛性編集を可能にするニュートラル編集(NeuEdit)フレームワークを提案する。
NeuEditは、拡散ベースの編集システムのチューニング編集プロセスを強化する「中立化」の概念を導入している。
多数のビデオの実験は、NeuEditフレームワークの適応性と有効性を示している。
論文 参考訳(メタデータ) (2023-12-10T16:28:32Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。