論文の概要: DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.07057v1
- Date: Sun, 11 May 2025 17:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.187161
- Title: DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models
- Title(参考訳): DAPE:拡散モデルを用いた一貫したビデオ編集のための2段階パラメータ効率の良いファインチューニング
- Authors: Junhao Xia, Chaoyang Zhang, Yecheng Zhang, Chengyang Zhou, Zhichang Wang, Bochun Liu, Dongshuo Yin,
- Abstract要約: 高品質で費用対効果の高い2段階パラメーター効率なビデオ編集のための微調整フレームワークであるDAPEを提案する。
最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。
第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
- 参考スコア(独自算出の注目度): 1.972901110298768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation based on diffusion models presents a challenging multimodal task, with video editing emerging as a pivotal direction in this field. Recent video editing approaches primarily fall into two categories: training-required and training-free methods. While training-based methods incur high computational costs, training-free alternatives often yield suboptimal performance. To address these limitations, we propose DAPE, a high-quality yet cost-effective two-stage parameter-efficient fine-tuning (PEFT) framework for video editing. In the first stage, we design an efficient norm-tuning method to enhance temporal consistency in generated videos. The second stage introduces a vision-friendly adapter to improve visual quality. Additionally, we identify critical shortcomings in existing benchmarks, including limited category diversity, imbalanced object distribution, and inconsistent frame counts. To mitigate these issues, we curate a large dataset benchmark comprising 232 videos with rich annotations and 6 editing prompts, enabling objective and comprehensive evaluation of advanced methods. Extensive experiments on existing datasets (BalanceCC, LOVEU-TGVE, RAVE) and our proposed benchmark demonstrate that DAPE significantly improves temporal coherence and text-video alignment while outperforming previous state-of-the-art approaches.
- Abstract(参考訳): 拡散モデルに基づく映像生成は、この領域においてビデオ編集が重要な方向として現れるという、困難なマルチモーダルタスクを示す。
最近のビデオ編集のアプローチは、主にトレーニング要求の方法とトレーニング不要の方法の2つのカテゴリに分類される。
トレーニングベースの手法は高い計算コストを発生させるが、トレーニングなしの代替手段は、しばしば準最適性能をもたらす。
これらの制約に対処するため,ビデオ編集のための高品質で費用効率のよい2段階パラメーター効率微調整(PEFT)フレームワークであるDAPEを提案する。
最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。
第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
さらに,カテゴリーの多様性の制限,不均衡なオブジェクト分布,不整合フレーム数など,既存のベンチマークにおける重大な欠点を同定する。
これらの問題を緩和するため、232本の動画にリッチアノテーションと6つの編集プロンプトを含む大規模なデータセットベンチマークを作成し、高度な手法の客観的かつ包括的な評価を可能にする。
既存のデータセット(BalanceCC, LOVEU-TGVE, RAVE)と提案したベンチマークにより, DAPEは従来の最先端手法よりも優れた時間的コヒーレンスとテキスト・ビデオアライメントを著しく向上することを示した。
関連論文リスト
- DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation [20.689304579898728]
イベントベースのビデオフレーム補間(EVFI)は、動き誘導としてスパースで高時間分解能なイベント計測を使用する。
我々は、インターネット規模のデータセットで訓練された事前学習ビデオ拡散モデルをEVFIに適用する。
提案手法は既存の手法より優れており,カメラ全体の一般化が従来の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2024-12-10T18:55:30Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。