論文の概要: Visual Prompting for One-shot Controllable Video Editing without Inversion
- arxiv url: http://arxiv.org/abs/2504.14335v1
- Date: Sat, 19 Apr 2025 16:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 01:18:17.857002
- Title: Visual Prompting for One-shot Controllable Video Editing without Inversion
- Title(参考訳): インバージョンのないワンショット制御可能なビデオ編集のためのビジュアルプロンプト
- Authors: Zhengbo Zhang, Yuxi Zhou, Duo Peng, Joo-Hwee Lim, Zhigang Tu, De Wen Soh, Lin Geng Foo,
- Abstract要約: ワンショットでコントロール可能なビデオ編集は重要な課題だが、難しい課題だ。
従来の手法では、ソースフレームを遅延ノイズに変換するためにDDIMインバージョンを使用していた。
生成された編集フレームとソースフレームとの整合性を確保するために,コンテンツ一貫性サンプリング(CCS)を提案する。
- 参考スコア(独自算出の注目度): 24.49929851970489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One-shot controllable video editing (OCVE) is an important yet challenging task, aiming to propagate user edits that are made -- using any image editing tool -- on the first frame of a video to all subsequent frames, while ensuring content consistency between edited frames and source frames. To achieve this, prior methods employ DDIM inversion to transform source frames into latent noise, which is then fed into a pre-trained diffusion model, conditioned on the user-edited first frame, to generate the edited video. However, the DDIM inversion process accumulates errors, which hinder the latent noise from accurately reconstructing the source frames, ultimately compromising content consistency in the generated edited frames. To overcome it, our method eliminates the need for DDIM inversion by performing OCVE through a novel perspective based on visual prompting. Furthermore, inspired by consistency models that can perform multi-step consistency sampling to generate a sequence of content-consistent images, we propose a content consistency sampling (CCS) to ensure content consistency between the generated edited frames and the source frames. Moreover, we introduce a temporal-content consistency sampling (TCS) based on Stein Variational Gradient Descent to ensure temporal consistency across the edited frames. Extensive experiments validate the effectiveness of our approach.
- Abstract(参考訳): ワンショット制御可能なビデオ編集(OCVE)は重要な課題であり、編集されたフレームとソースフレーム間のコンテントの整合性を確保しながら、ビデオの最初のフレーム(どんな画像編集ツールを使っても)で作成されるユーザの編集を伝播させることを目的としている。
これを実現するために、従来の手法ではDDIMインバージョンを使用してソースフレームを遅延ノイズに変換し、ユーザが編集した第1フレームに条件付で事前学習した拡散モデルに入力し、編集されたビデオを生成する。
しかし、DDIMインバージョンプロセスはエラーを蓄積し、遅延ノイズがソースフレームの正確な再構成を妨げ、最終的に生成された編集フレームのコンテント一貫性を損なう。
そこで本手法では,視覚的プロンプトに基づく新しい視点からOCVEを実行することにより,DDIMインバージョンの必要性を解消する。
さらに、コンテント一貫性画像を生成するための多段階一貫性サンプリングを行う一貫性モデルに着想を得て、生成された編集フレームとソースフレーム間のコンテント一貫性を確保するためのコンテント一貫性サンプリング(CCS)を提案する。
さらに,Stein Variational Gradient Descentに基づく時空間整合性サンプリング(TCS)を導入し,編集フレーム間の時間的整合性を確保する。
大規模な実験により、我々のアプローチの有効性が検証された。
関連論文リスト
- PSF-4D: A Progressive Sampling Framework for View Consistent 4D Editing [10.331089974537873]
4次元編集のためのプログレッシブサンプリングフレームワーク(PSF-4D)を提案する。
時間的コヒーレンスのために、時間とともにフレームをリンクする相関したガウス雑音構造を設計する。
ビュー間の空間的整合性を実現するために、クロスビューノイズモデルを実装している。
提案手法は,外部モデルに頼らずに高品質な4D編集を可能にする。
論文 参考訳(メタデータ) (2025-03-14T03:16:42Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。