論文の概要: Edit-A-Video: Single Video Editing with Object-Aware Consistency
- arxiv url: http://arxiv.org/abs/2303.07945v1
- Date: Tue, 14 Mar 2023 14:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:46:20.183636
- Title: Edit-A-Video: Single Video Editing with Object-Aware Consistency
- Title(参考訳): Edit-A-Video:Object-Aware Consistencyによるシングルビデオ編集
- Authors: Chaehun Shin, Heeseung Kim, Che Hyun Lee, Sang-gil Lee, Sungroh Yoon
- Abstract要約: 本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
- 参考スコア(独自算出の注目度): 21.027221323807154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the fact that text-to-video (TTV) model has recently achieved
remarkable success, there have been few approaches on TTV for its extension to
video editing. Motivated by approaches on TTV models adapting from
diffusion-based text-to-image (TTI) models, we suggest the video editing
framework given only a pretrained TTI model and a single <text, video> pair,
which we term Edit-A-Video. The framework consists of two stages: (1) inflating
the 2D model into the 3D model by appending temporal modules and tuning on the
source video (2) inverting the source video into the noise and editing with
target text prompt and attention map injection. Each stage enables the temporal
modeling and preservation of semantic attributes of the source video. One of
the key challenges for video editing include a background inconsistency
problem, where the regions not included for the edit suffer from undesirable
and inconsistent temporal alterations. To mitigate this issue, we also
introduce a novel mask blending method, termed as sparse-causal blending (SC
Blending). We improve previous mask blending methods to reflect the temporal
consistency so that the area where the editing is applied exhibits smooth
transition while also achieving spatio-temporal consistency of the unedited
regions. We present extensive experimental results over various types of text
and videos, and demonstrate the superiority of the proposed method compared to
baselines in terms of background consistency, text alignment, and video editing
quality.
- Abstract(参考訳): 近年,テキスト・ツー・ビデオ(TTV)モデルが顕著な成功を収めているにもかかわらず,ビデオ編集の拡張に対するTTVへのアプローチはほとんどない。
拡散に基づくテキスト・ツー・イメージ(tti)モデルに適応したttvモデルのアプローチに動機づけられ,事前学習されたttiモデルと<text, video>ペアのみを与えられた映像編集フレームワークを提案する。
このフレームワークは、(1)時間的モジュールを付加して2dモデルを3dモデルに拡張し、ソースビデオにチューニングする(2)ソースビデオをノイズに反転させ、ターゲットテキストプロンプトとアテンションマップインジェクションで編集する2段階からなる。
各ステージは、ソースビデオの意味的属性の時間的モデリングと保存を可能にする。
ビデオ編集における重要な課題の1つは、編集に含まれない領域が望ましくない時間変化に悩まされる背景の不整合の問題である。
この問題を軽減するため,sparse-causal blending (sc blending) と呼ばれる新しいマスクブレンディング法を提案する。
従来のマスクブレンディング法を改良して時間的一貫性を反映し,編集対象領域のスムーズな遷移と,未編集領域の時空間的一貫性を実現する。
提案手法は,様々な種類のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,映像編集品質の面でのベースラインと比較し,提案手法の優位性を示す。
関連論文リスト
- In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition [49.86840328246117]
3D対応のGANは、クリエイティブなコンテンツ編集のための新しい機能を提供する。
これらの方法は、潜伏コードの最適化・予測を行い、セマンティックな編集を行うことで、画像やビデオを再構成することができる。
我々は、顔ビデオのOODオブジェクトを明示的にモデル化することでこの問題に対処する。
中心となる考え方は、2つのニューラルフィールドを使って顔を表現することであり、1つは分布内、もう1つは分布外データであり、それらを再構成するために組み立てることである。
論文 参考訳(メタデータ) (2023-02-09T18:59:56Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z) - Shape-aware Text-driven Layered Video Editing [39.56765973770167]
形状変化に対処する形状認識型テキスト駆動ビデオ編集手法を提案する。
まず、入力と編集されたすべてのフレーム間の変形場を伝搬する。
次に、事前学習したテキスト条件拡散モデルを用いて、形状歪みを補正し、目に見えない領域を完成させる。
論文 参考訳(メタデータ) (2023-01-30T18:41:58Z) - Diffusion Video Autoencoders: Toward Temporally Consistent Face Video
Editing via Disentangled Video Encoding [35.18070525015657]
拡散オートエンコーダに基づく新しい顔映像編集フレームワークを提案する。
我々のモデルは拡散モデルに基づいており、再構築と編集の両方を同時に行うことができる。
論文 参考訳(メタデータ) (2022-12-06T07:41:51Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Temporally Consistent Semantic Video Editing [44.50322018842475]
本稿では、時間的コヒーレントなビデオ編集を容易にするための、シンプルで効果的な方法を提案する。
我々の中核となる考え方は、潜在コードと事前学習されたジェネレータの両方を最適化することで、時間的測光の不整合を最小限にすることである。
論文 参考訳(メタデータ) (2022-06-21T17:59:59Z) - DE-Net: Dynamic Text-guided Image Editing Adversarial Networks [82.67199573030513]
様々な編集要求に対して動的に空間的・チャネル的に操作する動的編集ブロック(DEBlock)を提案する。
我々のDE-Netは優れた性能を実現し、より効果的かつ正確にソース画像を操作する。
論文 参考訳(メタデータ) (2022-06-02T17:20:52Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。