論文の概要: EVE: Efficient zero-shot text-based Video Editing with Depth Map
Guidance and Temporal Consistency Constraints
- arxiv url: http://arxiv.org/abs/2308.10648v1
- Date: Mon, 21 Aug 2023 11:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:51:39.774283
- Title: EVE: Efficient zero-shot text-based Video Editing with Depth Map
Guidance and Temporal Consistency Constraints
- Title(参考訳): EVE:Depth Map Guidance and Temporal Consistency Constraintsを用いた効率的なゼロショットテキストベースビデオ編集
- Authors: Yutao Chen, Xingning Dong, Tian Gan, Chunluan Zhou, Ming Yang, and
Qingpei Guo
- Abstract要約: 現在のビデオ編集タスクは主に、高精細化コストと限られた生成能力との間のジレンマに悩まされている。
本研究では,堅牢で効率的なゼロショットビデオ編集手法であるEVEを提案する。
深度マップと時間的整合性制約のガイダンスの下で、EVEは良好なビデオ編集結果と安価な計算と時間コストを導出する。
- 参考スコア(独自算出の注目度): 20.1875350156484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the superior performance of image diffusion models, more and
more researchers strive to extend these models to the text-based video editing
task. Nevertheless, current video editing tasks mainly suffer from the dilemma
between the high fine-tuning cost and the limited generation capacity. Compared
with images, we conjecture that videos necessitate more constraints to preserve
the temporal consistency during editing. Towards this end, we propose EVE, a
robust and efficient zero-shot video editing method. Under the guidance of
depth maps and temporal consistency constraints, EVE derives satisfactory video
editing results with an affordable computational and time cost. Moreover,
recognizing the absence of a publicly available video editing dataset for fair
comparisons, we construct a new benchmark ZVE-50 dataset. Through comprehensive
experimentation, we validate that EVE could achieve a satisfactory trade-off
between performance and efficiency. We will release our dataset and codebase to
facilitate future researchers.
- Abstract(参考訳): 画像拡散モデルの優れた性能に触発されて、ますます多くの研究者がこれらのモデルをテキストベースのビデオ編集タスクに拡張しようと試みている。
それにもかかわらず、現在のビデオ編集作業は、主に高い微調整コストと限られた生成能力の間のジレンマに苦しむ。
画像と比較すると,動画は編集時の時間的一貫性を維持するためにより多くの制約を必要とすると推測する。
そこで本稿では,堅牢で効率的なゼロショットビデオ編集手法であるEVEを提案する。
深度マップと時間的整合性制約のガイダンスの下で、EVEは良好なビデオ編集結果を安価な計算と時間コストで導き出す。
さらに、公正比較のための公開ビデオ編集データセットがないことを認識し、新しいベンチマークZVE-50データセットを構築した。
総合的な実験を通じて、EVEが性能と効率のトレードオフを十分に達成できることを検証する。
将来の研究者を促進するために、データセットとコードベースをリリースします。
関連論文リスト
- EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
実験結果から,EffiVEDは高品質な編集ビデオを生成するだけでなく,高速に実行可能であることがわかった。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video
Editing [10.011515580084243]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
提案手法は,下流タスク性能と強い相関を示す広範な実験により検証され,サロゲート指標としてパープレキシティを用いる。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [11.53331331246286]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
特に,ユーザの要求に応じて,最大128フレームの動画編集を行う。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - INVE: Interactive Neural Video Editing [79.48055669064229]
対話型ニューラルビデオ編集(Interactive Neural Video Editing、INVE)は、ビデオクリップ全体へのスパースフレーム編集を一貫して伝播するリアルタイムビデオ編集ソリューションである。
我々の手法は、Layered Neural Atlas (LNA)の最近の研究にインスパイアされている。
LNAは,(1)対話的な編集に時間がかかりすぎること,(2)編集のユースケースに対して不十分なサポートを提供していること,の2つの大きな欠点に悩まされている。
論文 参考訳(メタデータ) (2023-07-15T00:02:41Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。