Fugu-MT 論文翻訳(概要): Zero-Shot Video Editing through Adaptive Sliding Score Distillation

論文の概要: Zero-Shot Video Editing through Adaptive Sliding Score Distillation

arxiv url: http://arxiv.org/abs/2406.04888v2
Date: Fri, 6 Sep 2024 14:55:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 20:13:58.220259
Title: Zero-Shot Video Editing through Adaptive Sliding Score Distillation
Title（参考訳）: 適応スライディングスコア蒸留によるゼロショット映像編集
Authors: Lianghan Zhu, Yanqi Bao, Jing Huo, Jing Wu, Yu-Kun Lai, Wenbin Li, Yang Gao,
Abstract要約: 本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
参考スコア（独自算出の注目度）: 51.57440923362033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapidly evolving field of Text-to-Video generation (T2V) has catalyzed renewed interest in controllable video editing research. While the application of editing prompts to guide diffusion model denoising has gained prominence, mirroring advancements in image editing, this noise-based inference process inherently compromises the original video's integrity, resulting in unintended over-editing and temporal discontinuities. To address these challenges, this study proposes a novel paradigm of video-based score distillation, facilitating direct manipulation of original video content. Specifically, distinguishing it from image-based score distillation, we propose an Adaptive Sliding Score Distillation strategy, which incorporates both global and local video guidance to reduce the impact of editing errors. Combined with our proposed Image-based Joint Guidance mechanism, it has the ability to mitigate the inherent instability of the T2V model and single-step sampling. Additionally, we design a Weighted Attention Fusion module to further preserve the key features of the original video and avoid over-editing. Extensive experiments demonstrate that these strategies effectively address existing challenges, achieving superior performance compared to current state-of-the-art methods.
Abstract（参考訳）: テキスト・ツー・ビデオ・ジェネレーション(T2V)の急速な発展により、制御可能なビデオ編集研究への新たな関心が高まっている。画像編集の進歩を反映した拡散モデル案内への編集プロンプトの適用は注目されているが、このノイズベースの推論プロセスは本質的にオリジナルビデオの整合性を損なうものであり、意図しない過剰な編集と時間的不連続をもたらす。これらの課題に対処するため,本研究では,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。具体的には、画像に基づくスコア蒸留と区別し、グローバルとローカルの両方の動画誘導を取り入れた適応スライディングスコア蒸留法を提案し、編集エラーの影響を低減する。提案した画像ベースジョイントガイダンス機構と組み合わせることで,T2Vモデル固有の不安定性を緩和し,単一ステップサンプリングを行うことができる。さらに、オリジナルビデオの重要な特徴をさらに保存し、過剰な編集を避けるために、重み付き注意融合モジュールを設計する。大規模な実験は、これらの戦略が既存の課題に効果的に対処し、現在の最先端の手法よりも優れたパフォーマンスを達成することを実証している。

関連論文リスト

Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文参考訳（メタデータ） (2025-07-29T14:31:17Z)
Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。 IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文参考訳（メタデータ） (2025-01-08T07:52:12Z)
Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。 RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文参考訳（メタデータ） (2024-12-16T12:32:21Z)
VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文参考訳（メタデータ） (2024-11-26T16:56:53Z)
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文参考訳（メタデータ） (2024-11-17T11:48:01Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing [48.238213651343784]
ビデオスコアの蒸留は、ターゲットテキストで示される新しいコンテンツを導入することができるが、構造や動きのずれを引き起こすこともある。本稿では, 原ビデオの時空間自己相似性と, スコア蒸留中の編集ビデオとを一致させることを提案する。我々のアプローチはモデルに依存しないもので、カスケードと非カスケードの両方の動画拡散フレームワークに適用できる。
論文参考訳（メタデータ） (2024-03-18T17:38:53Z)
Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-03-14T14:35:59Z)
Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。 Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文参考訳（メタデータ） (2023-03-08T17:53:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。