論文の概要: NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing
- arxiv url: http://arxiv.org/abs/2603.02802v1
- Date: Tue, 03 Mar 2026 09:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.739635
- Title: NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing
- Title(参考訳): NOVA: ペアフリービデオ編集のためのスパース制御, デンス合成
- Authors: Tianlin Pan, Jiayi Dai, Chenpu Yuan, Zhengyao Lv, Binxin Yang, Hubery Yin, Chen Li, Jing Lyu, Caifeng Shan, Chenyang Si,
- Abstract要約: NOVA: Sparse Control & Dense Synthesisは、未完成のビデオ編集のための新しいフレームワークです。
実験の結果,NOVAは従来手法よりも忠実度,運動保存,時間的コヒーレンスに優れていた。
- 参考スコア(独自算出の注目度): 26.74471251505078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.
- Abstract(参考訳): 最近のビデオ編集モデルは目覚ましい結果を得たが、そのほとんどは大規模にペア化されたデータセットを必要とする。
このような自然に整合したペアを大規模に集めることは非常に困難であり、特にローカルビデオ編集データにおいて重要なボトルネックとなっている。
既存の回避策は、ペアレスビデオ編集のためのグローバルモーションコントロールを通じて映像に画像編集を転送するが、そのような設計は背景と時間的一貫性に苦しむ。
本稿では,未ペアビデオ編集のための新しいフレームワークであるNOVA: Sparse Control \&Dense Synthesisを提案する。
具体的には、スパースブランチは、ビデオ全体に分散されたユーザ編集キーフレームを通じてセマンティックガイダンスを提供し、密分ブランチは、元のビデオからの動きやテクスチャ情報を連続的に組み込んで、高い忠実性と一貫性を維持する。
さらに, 映像の再生と時間的整合性を学習し, 組合わせデータの必要性をなくすための劣化シミュレーション学習手法を提案する。
広範囲にわたる実験により、NOVAは、忠実度、運動保存、時間的コヒーレンスを編集する既存のアプローチよりも優れていることが示された。
関連論文リスト
- EasyV2V: A High-quality Instruction-based Video Editing Framework [108.78294392167017]
キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。
EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - SketchVideo: Sketch-based Video Generation and Editing [51.99066098393491]
本研究では,映像生成のためのスケッチベースの空間・動き制御の実現と,実・合成ビデオのきめ細かい編集を支援することを目的とする。
DiTビデオ生成モデルに基づいて、スキップされたDiTブロックの残像を予測するスケッチ制御ブロックを用いたメモリ効率の高い制御構造を提案する。
スケッチベースのビデオ編集では,新たに編集したコンテンツとオリジナルビデオの空間的特徴と動的動作との整合性を維持するビデオ挿入モジュールを設計する。
論文 参考訳(メタデータ) (2025-03-30T02:44:09Z) - HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks [4.536530093400348]
既存のビデオ層分解モデルは、各ビデオに対して独立に訓練された暗黙の神経表現(INR)に依存している。
本稿では,新しいビデオの学習を高速化するために,一般的なビデオ分解モデルを学習するためのメタラーニング戦略を提案する。
我々の戦略は、シングルビデオオーバーフィッティングの問題を緩和し、重要なことは、新しい、目に見えないビデオに対するビデオ分解の収束を短縮する。
論文 参考訳(メタデータ) (2025-03-21T16:24:47Z) - Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。
IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。
本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文 参考訳(メタデータ) (2025-01-08T07:52:12Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。