論文の概要: VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
- arxiv url: http://arxiv.org/abs/2406.12831v2
- Date: Tue, 15 Oct 2024 17:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:00.916697
- Title: VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
- Title(参考訳): VIA:グローバルおよびローカルビデオ編集のための統合時空間ビデオ適応フレームワーク
- Authors: Jing Gu, Yuwei Fang, Ivan Skorokhodov, Peter Wonka, Xinya Du, Sergey Tulyakov, Xin Eric Wang,
- Abstract要約: グローバルおよびローカルなビデオ編集のためのVIA統合ビデオ適応フレームワークについて紹介する。
我々は,VIAが一貫した長いビデオ編集を数分で達成できることを示し,高度なビデオ編集タスクの可能性を秘めている。
- 参考スコア(独自算出の注目度): 91.60658973688996
- License:
- Abstract: Video editing is a cornerstone of digital media, from entertainment and education to professional communication. However, previous methods often overlook the necessity of comprehensively understanding both global and local contexts, leading to inaccurate and inconsistent edits in the spatiotemporal dimension, especially for long videos. In this paper, we introduce VIA, a unified spatiotemporal Video Adaptation framework for global and local video editing, pushing the limits of consistently editing minute-long videos. First, to ensure local consistency within individual frames, we designed test-time editing adaptation to adapt a pre-trained image editing model for improving consistency between potential editing directions and the text instruction, and adapt masked latent variables for precise local control. Furthermore, to maintain global consistency over the video sequence, we introduce spatiotemporal adaptation that recursively gather consistent attention variables in key frames and strategically applies them across the whole sequence to realize the editing effects. Extensive experiments demonstrate that, compared to baseline methods, our VIA approach produces edits that are more faithful to the source videos, more coherent in the spatiotemporal context, and more precise in local control. More importantly, we show that VIA can achieve consistent long video editing in minutes, unlocking the potential for advanced video editing tasks over long video sequences.
- Abstract(参考訳): ビデオ編集はエンターテイメントや教育からプロのコミュニケーションまで、デジタルメディアの基盤となっている。
しかし、従来の手法は、グローバルな文脈とローカルな文脈の両方を包括的に理解する必要性を無視することが多く、特に長いビデオにおいて、時空間次元における不正確で矛盾した編集につながる。
本稿では,グローバルおよびローカルなビデオ編集のための一貫した時空間ビデオ適応フレームワークであるVIAを紹介し,一貫したビデオ編集の限界を推し進める。
まず,各フレーム内の局所的な整合性を確保するため,事前学習した画像編集モデルを適用して,潜在的な編集方向とテキスト命令との整合性を改善するとともに,マスク付き潜伏変数を正確な局所制御に適応させる。
さらに,ビデオシーケンスのグローバルな一貫性を維持するために,キーフレーム内の一貫した注意変数を再帰的に収集する時空間適応を導入し,その編集効果を実現するために全シーケンスにわたって戦略的に適用する。
広範にわたる実験により,本手法はベースライン手法と比較して,ソースビデオに忠実な編集,時空間のコヒーレント化,局所制御の精度の向上を実証した。
さらに重要なことは、VIAが一貫した長いビデオ編集を数分で達成できることを示し、長いビデオシーケンスの先進的なビデオ編集タスクの可能性を解き放ちます。
関連論文リスト
- A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency [66.49423641279374]
DeCoは、人間と背景を別々に編集可能なターゲットとして扱うように設計された、新しいビデオ編集フレームワークである。
そこで本研究では,人体を利用した非結合型動的人体表現法を提案する。
本研究は, 通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張し, 最適化時の人間のテクスチャを向上する。
論文 参考訳(メタデータ) (2024-08-14T11:53:40Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video
Editing [10.011515580084243]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Temporally Consistent Semantic Video Editing [44.50322018842475]
本稿では、時間的コヒーレントなビデオ編集を容易にするための、シンプルで効果的な方法を提案する。
我々の中核となる考え方は、潜在コードと事前学習されたジェネレータの両方を最適化することで、時間的測光の不整合を最小限にすることである。
論文 参考訳(メタデータ) (2022-06-21T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。