論文の概要: VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
- arxiv url: http://arxiv.org/abs/2406.12831v1
- Date: Tue, 18 Jun 2024 17:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:39:34.873083
- Title: VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
- Title(参考訳): VIA: グローバルおよびローカルビデオ編集のための時空間ビデオ適応フレームワーク
- Authors: Jing Gu, Yuwei Fang, Ivan Skorokhodov, Peter Wonka, Xinya Du, Sergey Tulyakov, Xin Eric Wang,
- Abstract要約: VIAは、グローバルおよびローカルなビデオ編集のための統合されたVIdeoフレームワークである。
また,VIAは長時間の映像編集を一貫した時間で行うことができ,映像編集作業に長大な可能性を秘めていることを示す。
- 参考スコア(独自算出の注目度): 91.60658973688996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video editing stands as a cornerstone of digital media, from entertainment and education to professional communication. However, previous methods often overlook the necessity of comprehensively understanding both global and local contexts, leading to inaccurate and inconsistency edits in the spatiotemporal dimension, especially for long videos. In this paper, we introduce VIA, a unified spatiotemporal VIdeo Adaptation framework for global and local video editing, pushing the limits of consistently editing minute-long videos. First, to ensure local consistency within individual frames, the foundation of VIA is a novel test-time editing adaptation method, which adapts a pre-trained image editing model for improving consistency between potential editing directions and the text instruction, and adapts masked latent variables for precise local control. Furthermore, to maintain global consistency over the video sequence, we introduce spatiotemporal adaptation that adapts consistent attention variables in key frames and strategically applies them across the whole sequence to realize the editing effects. Extensive experiments demonstrate that, compared to baseline methods, our VIA approach produces edits that are more faithful to the source videos, more coherent in the spatiotemporal context, and more precise in local control. More importantly, we show that VIA can achieve consistent long video editing in minutes, unlocking the potentials for advanced video editing tasks over long video sequences.
- Abstract(参考訳): ビデオ編集は、エンターテイメントや教育からプロのコミュニケーションまで、デジタルメディアの基盤となっている。
しかし、従来の手法は、グローバルな文脈とローカルな文脈の両方を包括的に理解する必要性を無視することが多く、特に長いビデオの場合、時空間における不正確で矛盾した編集につながる。
本稿では,グローバルおよびローカルなビデオ編集のための一貫した時空間VIdeo AdaptationフレームワークであるVIAを紹介し,一貫したビデオ編集の限界を推し進める。
まず、各フレーム内の局所的な一貫性を確保するため、VIAの基礎となる新しいテスト時間編集適応法は、潜在的な編集方向とテキスト命令との整合性を改善するために事前訓練された画像編集モデルを適用し、マスク付き潜伏変数を正確な局所制御に適応させる。
さらに,映像系列に対するグローバルな一貫性を維持するために,キーフレーム内の一貫した注意変数を適応させる時空間適応を導入し,その編集効果を実現するために全シーケンスにわたって戦略的に適用する。
広範にわたる実験により,本手法はベースライン手法と比較して,ソースビデオに忠実な編集,時空間のコヒーレント化,局所制御の精度の向上を実証した。
さらに重要なことは、VIAが一貫した長いビデオ編集を数分で達成できることを示し、長いビデオシーケンスの先進的なビデオ編集タスクの可能性を解き放ちます。
関連論文リスト
- StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency [66.49423641279374]
DeCoは、人間と背景を別々に編集可能なターゲットとして扱うように設計された、新しいビデオ編集フレームワークである。
そこで本研究では,人体を利用した非結合型動的人体表現法を提案する。
本研究は, 通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張し, 最適化時の人間のテクスチャを向上する。
論文 参考訳(メタデータ) (2024-08-14T11:53:40Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Temporally Consistent Semantic Video Editing [44.50322018842475]
本稿では、時間的コヒーレントなビデオ編集を容易にするための、シンプルで効果的な方法を提案する。
我々の中核となる考え方は、潜在コードと事前学習されたジェネレータの両方を最適化することで、時間的測光の不整合を最小限にすることである。
論文 参考訳(メタデータ) (2022-06-21T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。