論文の概要: EVE: Efficient zero-shot text-based Video Editing with Depth Map
Guidance and Temporal Consistency Constraints
- arxiv url: http://arxiv.org/abs/2308.10648v1
- Date: Mon, 21 Aug 2023 11:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:51:39.774283
- Title: EVE: Efficient zero-shot text-based Video Editing with Depth Map
Guidance and Temporal Consistency Constraints
- Title(参考訳): EVE:Depth Map Guidance and Temporal Consistency Constraintsを用いた効率的なゼロショットテキストベースビデオ編集
- Authors: Yutao Chen, Xingning Dong, Tian Gan, Chunluan Zhou, Ming Yang, and
Qingpei Guo
- Abstract要約: 現在のビデオ編集タスクは主に、高精細化コストと限られた生成能力との間のジレンマに悩まされている。
本研究では,堅牢で効率的なゼロショットビデオ編集手法であるEVEを提案する。
深度マップと時間的整合性制約のガイダンスの下で、EVEは良好なビデオ編集結果と安価な計算と時間コストを導出する。
- 参考スコア(独自算出の注目度): 20.1875350156484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the superior performance of image diffusion models, more and
more researchers strive to extend these models to the text-based video editing
task. Nevertheless, current video editing tasks mainly suffer from the dilemma
between the high fine-tuning cost and the limited generation capacity. Compared
with images, we conjecture that videos necessitate more constraints to preserve
the temporal consistency during editing. Towards this end, we propose EVE, a
robust and efficient zero-shot video editing method. Under the guidance of
depth maps and temporal consistency constraints, EVE derives satisfactory video
editing results with an affordable computational and time cost. Moreover,
recognizing the absence of a publicly available video editing dataset for fair
comparisons, we construct a new benchmark ZVE-50 dataset. Through comprehensive
experimentation, we validate that EVE could achieve a satisfactory trade-off
between performance and efficiency. We will release our dataset and codebase to
facilitate future researchers.
- Abstract(参考訳): 画像拡散モデルの優れた性能に触発されて、ますます多くの研究者がこれらのモデルをテキストベースのビデオ編集タスクに拡張しようと試みている。
それにもかかわらず、現在のビデオ編集作業は、主に高い微調整コストと限られた生成能力の間のジレンマに苦しむ。
画像と比較すると,動画は編集時の時間的一貫性を維持するためにより多くの制約を必要とすると推測する。
そこで本稿では,堅牢で効率的なゼロショットビデオ編集手法であるEVEを提案する。
深度マップと時間的整合性制約のガイダンスの下で、EVEは良好なビデオ編集結果を安価な計算と時間コストで導き出す。
さらに、公正比較のための公開ビデオ編集データセットがないことを認識し、新しいベンチマークZVE-50データセットを構築した。
総合的な実験を通じて、EVEが性能と効率のトレードオフを十分に達成できることを検証する。
将来の研究者を促進するために、データセットとコードベースをリリースします。
関連論文リスト
- VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing [13.006616304789878]
本稿では,データセットVIVID-10MとベースラインモデルVIVIDを紹介する。
VIVID-10Mは、最初の大規模ハイブリッド画像-ビデオローカル編集データセットである。
提案手法は,ビデオローカル編集における最先端性能を実現し,自動計測とユーザスタディの両方においてベースライン手法を超越した。
論文 参考訳(メタデータ) (2024-11-22T10:04:05Z) - StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野では例外的な性能を示した。
その堅牢な生成能力にもかかわらず、これらのモデルはしばしば不正確な逆転に悩まされ、画像やビデオ編集などの下流タスクにおける有効性を制限できる。
本稿では,修正フローODEの解法における誤差を低減し,インバージョン精度を向上させる新しいトレーニングフリーサンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - INVE: Interactive Neural Video Editing [79.48055669064229]
対話型ニューラルビデオ編集(Interactive Neural Video Editing、INVE)は、ビデオクリップ全体へのスパースフレーム編集を一貫して伝播するリアルタイムビデオ編集ソリューションである。
我々の手法は、Layered Neural Atlas (LNA)の最近の研究にインスパイアされている。
LNAは,(1)対話的な編集に時間がかかりすぎること,(2)編集のユースケースに対して不十分なサポートを提供していること,の2つの大きな欠点に悩まされている。
論文 参考訳(メタデータ) (2023-07-15T00:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。