論文の概要: ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2603.15478v1
- Date: Mon, 16 Mar 2026 16:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.564147
- Title: ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer
- Title(参考訳): ViFeEdit:ビデオ拡散変換器のタナー
- Authors: Ruonan Yu, Zhenxiong Tan, Zigeng Chen, Songhua Liu, Xinchao Wang,
- Abstract要約: ビデオ拡散変換器用ビデオフリーチューニングフレームワークViFeEditを提案する。
ViFeEditは2D画像のみに適応した多用途のビデオ生成と編集を実現する。
本手法は,2次元画像データに対する最小限のトレーニングしか行わず,制御可能な映像生成と編集の有望な結果を提供する。
- 参考スコア(独自算出の注目度): 74.61793196579036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.
- Abstract(参考訳): Diffusion Transformers (DiTs) は、画像およびビデオ生成の大幅なスケーラビリティと品質を示し、それらを制御可能な生成および編集タスクに拡張することへの関心が高まっている。
しかし,映像データが少ないことと,動画拡散モデルの訓練に高い計算コストがかかることから,映像制御と編集の進歩は依然として限られている。
そこで本稿では,ビデオ拡散変換器用ビデオフリーチューニングフレームワークViFeEditを提案する。
ViFeEditはビデオのトレーニングデータを一切必要とせず、2D画像にのみ適応した多目的なビデオ生成と編集を実現している。
我々のアプローチの核心は、現代のビデオ拡散変換器における空間的独立性から空間的独立性を分離するアーキテクチャ再パラメータ化であり、最小限の追加パラメータで時間的一貫性を維持しながら、視覚的に忠実な編集を可能にする。
さらに、この設計は、ノイズスケジューリングのための別々のタイムステップ埋め込みを備えたデュアルパスパイプラインで動作し、多様な条件信号に強い適応性を示す。
広汎な実験により,2次元画像データに対する最小限のトレーニングで,制御可能な映像生成と編集の有望な結果が得られた。
コードはhttps://github.com/Lexie-YU/ViFeEdit.comで入手できる。
関連論文リスト
- EasyV2V: A High-quality Instruction-based Video Editing Framework [108.78294392167017]
キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。
EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [51.805505207941934]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing [48.086102360155856]
本稿では,革新的映像表現として動的ニューラルラジアンス場(NeRF)を紹介する。
本稿では,一貫した編集が可能な画像ベースビデオNeRF編集パイプラインを提案する。
我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを、人間の好みに対して50%の差で大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-16T17:48:10Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。