論文の概要: Tuning-free Instruction-based Video Editing Via Structural Noise Initialization and Guidance
- arxiv url: http://arxiv.org/abs/2605.15533v1
- Date: Fri, 15 May 2026 02:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.147935
- Title: Tuning-free Instruction-based Video Editing Via Structural Noise Initialization and Guidance
- Title(参考訳): 教師なし指導に基づく構造的雑音初期化と誘導による映像編集
- Authors: Song Wu, Xinyu Chen, Qian Wang, Liang Li, Zili Yi, Junlan Feng,
- Abstract要約: テキスト不要な命令ベースのビデオ編集フレームワークを提案する。
提案手法は,より優れた視覚的品質と最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 34.63499907054888
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video editing poses a significant challenge. While a series of tuning-free methods circumvent the need for extensive data collection and model training, they often underutilize the rich information embedded within noisy latent, leading to unsatisfactory results. To address this, we propose a \textit{tuning-free, instruction-based} video editing framework. We approach video editing from the perspective of noisy latent: we design a Structural Noise Initialization Strategy (SNIS) to secure a superior editing starting point by assigning higher noise levels to edited regions (to facilitate content change) and lower noise levels to unedited regions (to maintain content consistency). We introduce a Noise Guidance Mechanism (NGM), which leverages the video prior in the generative model and effectively integrates rich information within the noisy latent to guide the denoising process, thereby preserving unedited content and overall visual coherence. Experiments show that our proposed method achieves better visual quality and state-of-the-art performance.
- Abstract(参考訳): ビデオ編集は重要な課題だ。
一連のチューニング不要なメソッドは、広範囲なデータ収集とモデルトレーニングの必要性を回避しているが、ノイズの多い潜伏状態に埋め込まれたリッチな情報を過小評価することが多く、満足のいく結果に繋がる。
そこで本稿では,ビデオ編集フレームワークであるtextit{tuning-free, instruction-based}を提案する。
我々は、ノイズレベルを編集領域に割り当て(コンテンツ変更を容易にするため)、ノイズレベルを未編集領域に割り当て(コンテンツ一貫性を維持するため)、より優れた編集開始点を確保するために、SNIS(Structuor Noise Initialization Strategy)を設計する。
本稿では,生成モデルに先行する映像を活用し,ノイズキャンセント内にリッチな情報を効果的に統合し,非編集コンテンツと全体的視覚コヒーレンスを保存するノイズ誘導機構(NGM)を提案する。
実験の結果,提案手法は視覚的品質と最先端の性能を向上することがわかった。
関連論文リスト
- Region-Constraint In-Context Generation for Instructional Video Editing [91.27224696009755]
本稿では,テキスト内生成中の編集領域と非編集領域の制約モデリングに着目する新しい指導ビデオ編集パラダイムReCoを提案する。
本稿では,500Kの命令-ビデオペアからなる大規模かつ高品質なビデオ編集データセットであるReCo-Dataを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:49:30Z) - Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits [33.1393328136321]
編集された映像と付随する音声とのコヒーレンスを高めるジョイントオーディオ・ビジュアル編集のための新しいパイプラインを提案する。
提案手法はまず,対象映像を生成するために最先端のビデオ編集技術を適用し,視覚的変化に合わせて音声編集を行う。
論文 参考訳(メタデータ) (2025-12-08T06:45:11Z) - Object-AVEdit: An Object-level Audio-Visual Editing Model [79.62095842136115]
インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。
編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。
より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-27T18:12:13Z) - Taming Flow-based I2V Models for Creative Video Editing [64.67801702413122]
ビデオ編集は、ユーザーの意図に応じてビデオを編集することを目的としているが、まだまだ課題だ。
既存の画像条件付きビデオ編集手法の多くは、モデル固有の設計の逆変換を必要とするか、あるいは広範囲の最適化を必要とする。
Inversion-Free 方式である IF-V2V を提案し,ビデオ編集のためのオフザシェルフフローマッチングベースの I2V モデルを,計算オーバーヘッドの大きいものに適応させる。
論文 参考訳(メタデータ) (2025-09-26T05:57:04Z) - DNI: Dilutional Noise Initialization for Diffusion Video Editing [22.308638156328968]
本稿では,非剛性編集を含む精密かつダイナミックな修正が可能なDNI(Dilutional Noise Initialization)フレームワークを提案する。
DNIは「ノイズ希釈」の概念を導入し、入力ビデオによって課される構造的剛性を和らげるために編集される領域の潜時雑音にさらなるノイズを加える。
論文 参考訳(メタデータ) (2024-09-19T18:17:57Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models [47.518487213173785]
コンテンツの視覚的品質と一貫性の両方を考慮した新しい定式化を提案する。
コンテントの整合性は,事前学習した拡散モデルのデノナイジングプロセスを利用して視覚的品質を向上させるとともに,入力の構造を維持可能な損失関数によって保証される。
論文 参考訳(メタデータ) (2024-07-14T17:59:56Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。