論文の概要: FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
- arxiv url: http://arxiv.org/abs/2506.05046v1
- Date: Thu, 05 Jun 2025 13:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.74134
- Title: FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
- Title(参考訳): FlowDirector: 精密テキスト・ビデオ編集のためのトレーニングフリーなフローステアリング
- Authors: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang,
- Abstract要約: FlowDirectorは、新しいインバージョンフリーのビデオ編集フレームワークである。
我々のフレームワークは、編集プロセスをデータ空間の直接進化としてモデル化する。
局所的かつ制御可能な編集を実現するために,注意誘導型マスキング機構を導入する。
- 参考スコア(独自算出の注目度): 2.7248421583285265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven video editing aims to modify video content according to natural language instructions. While recent training-free approaches have made progress by leveraging pre-trained diffusion models, they typically rely on inversion-based techniques that map input videos into the latent space, which often leads to temporal inconsistencies and degraded structural fidelity. To address this, we propose FlowDirector, a novel inversion-free video editing framework. Our framework models the editing process as a direct evolution in data space, guiding the video via an Ordinary Differential Equation (ODE) to smoothly transition along its inherent spatiotemporal manifold, thereby preserving temporal coherence and structural details. To achieve localized and controllable edits, we introduce an attention-guided masking mechanism that modulates the ODE velocity field, preserving non-target regions both spatially and temporally. Furthermore, to address incomplete edits and enhance semantic alignment with editing instructions, we present a guidance-enhanced editing strategy inspired by Classifier-Free Guidance, which leverages differential signals between multiple candidate flows to steer the editing trajectory toward stronger semantic alignment without compromising structural consistency. Extensive experiments across benchmarks demonstrate that FlowDirector achieves state-of-the-art performance in instruction adherence, temporal consistency, and background preservation, establishing a new paradigm for efficient and coherent video editing without inversion.
- Abstract(参考訳): テキスト駆動のビデオ編集は、自然言語の指示に従ってビデオコンテンツを変更することを目的としている。
最近のトレーニングなしのアプローチは、事前訓練された拡散モデルを活用することで進歩してきたが、一般的には、入力ビデオを潜時空間にマッピングする反転に基づく手法に依存しており、時間的不整合や構造的忠実度が低下することが多い。
そこで本研究では,新しいインバージョンフリービデオ編集フレームワークであるFlowDirectorを提案する。
我々のフレームワークは、編集プロセスをデータ空間の直接的進化としてモデル化し、通常微分方程式(ODE)を介してビデオを誘導し、その固有時空間多様体に沿って滑らかに遷移させ、時間的コヒーレンスと構造的詳細を保存する。
局所的かつ制御可能な編集を実現するために,ODE速度場を変調し,空間的にも時間的にも非ターゲット領域を保存するアテンション誘導マスキング機構を導入する。
さらに,不完全な編集に対処し,編集命令とセマンティックアライメントを強化するために,複数の候補フロー間の差分信号を利用して,構造的整合性を損なうことなく,より強力なセマンティックアライメントを指向する指導強化編集戦略を提案する。
ベンチマークによる大規模な実験により、FlowDirectorは命令の順守、時間的整合性、背景保存において最先端のパフォーマンスを実現し、インバージョンなしで効率よく一貫性のあるビデオ編集を行うための新しいパラダイムを確立した。
関連論文リスト
- Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。
IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。
本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文 参考訳(メタデータ) (2025-01-08T07:52:12Z) - Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。
対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。
RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文 参考訳(メタデータ) (2024-12-16T12:32:21Z) - VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing [91.60658973688996]
我々は,グローバルなローカルビデオ編集のための統合ビデオ適応フレームワークであるVIAを導入し,一貫したビデオ編集の限界を推し進める。
本研究では,各フレーム内の局所的な一貫性を確保するため,事前学習した画像編集モデルに適応するテスト時間編集適応を設計した。
また,VIAは長時間の映像編集を一貫した時間で行うことができ,ビデオ編集作業が長続きする可能性を秘めていることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:51:37Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。