論文の概要: Video Editing via Factorized Diffusion Distillation
- arxiv url: http://arxiv.org/abs/2403.09334v2
- Date: Sun, 24 Mar 2024 13:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 00:56:02.609552
- Title: Video Editing via Factorized Diffusion Distillation
- Title(参考訳): 因子化拡散蒸留による映像編集
- Authors: Uriel Singer, Amit Zohar, Yuval Kirstain, Shelly Sheynin, Adam Polyak, Devi Parikh, Yaniv Taigman,
- Abstract要約: EVE(Emu Video Edit)は,映像編集において,教師付き映像編集データに頼らずに新たな最先端技術を確立するモデルである。
EVEを開発するために、画像編集アダプタとビデオ生成アダプタを別々に訓練し、同じテキスト・画像モデルにアタッチする。
- 参考スコア(独自算出の注目度): 56.03355109743435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Emu Video Edit (EVE), a model that establishes a new state-of-the art in video editing without relying on any supervised video editing data. To develop EVE we separately train an image editing adapter and a video generation adapter, and attach both to the same text-to-image model. Then, to align the adapters towards video editing we introduce a new unsupervised distillation procedure, Factorized Diffusion Distillation. This procedure distills knowledge from one or more teachers simultaneously, without any supervised data. We utilize this procedure to teach EVE to edit videos by jointly distilling knowledge to (i) precisely edit each individual frame from the image editing adapter, and (ii) ensure temporal consistency among the edited frames using the video generation adapter. Finally, to demonstrate the potential of our approach in unlocking other capabilities, we align additional combinations of adapters
- Abstract(参考訳): EVE(Emu Video Edit)は,教師付きビデオ編集データに頼らずに,映像編集における新たな最先端技術を確立するモデルである。
EVEを開発するために、画像編集アダプタとビデオ生成アダプタを別々に訓練し、同じテキスト・画像モデルにアタッチする。
そこで,ビデオ編集に適応する手法としてFactized Diffusion Distillationを提案する。
この手順は、教師データなしで、1つ以上の教師からの知識を同時に蒸留する。
我々は、この手順を利用して、EVEに知識を共同で蒸留することで、ビデオの編集を教える。
一 画像編集アダプタから各フレームを正確に編集し、
(II)映像生成アダプタを用いて編集フレーム間の時間的一貫性を確保する。
最後に、他の機能をアンロックする際のアプローチの可能性を示すために、アダプタのさらなる組み合わせを調整します。
関連論文リスト
- InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
本稿では,ビデオ編集を2つのステップに簡略化する新しいトレーニングフリーフレームワークであるAnyV2Vを紹介する。
最初の段階では、AnyV2Vは既存の画像編集ツールをプラグインして、幅広いビデオ編集タスクをサポートすることができる。
従来のプロンプトベースの編集方法以外にも、AnyV2Vは参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートする。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - InstructVid2Vid: Controllable Video Editing with Natural Language
Instructions [106.6740407795944]
人間の言語命令で動画を編集するエンドツーエンド拡散方式,すなわち $textbfInstructVid2Vid$ を提案する。
提案手法では,自然言語命令に基づく入力ビデオの編集を,例ごとの微調整や逆変換を行なわずに行うことができる。
実験によると、InstructVid2Vidは高品質で時間的に整合したビデオを生成し、編集、背景の変更、スタイル転送など様々な編集を行うことができる。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。