論文の概要: SAVE: Protagonist Diversification with Structure Agnostic Video Editing
- arxiv url: http://arxiv.org/abs/2312.02503v1
- Date: Tue, 5 Dec 2023 05:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:37:49.324741
- Title: SAVE: Protagonist Diversification with Structure Agnostic Video Editing
- Title(参考訳): save: 構造非依存のビデオ編集による多角化
- Authors: Yeji Song, Wonsik Shin, Junsoo Lee, Jeesoo Kim and Nojun Kwak
- Abstract要約: 従来の作品は通常、自明で一貫した形状でうまく機能し、元のものと大きく異なる体形を持つ難しいターゲットで容易に崩壊する。
動きのパーソナライズを単一音源映像から分離し,それに応じて動きの調整を行う。
我々はまた、新しい擬似光学フローを導入することにより、動き語を適切な動き関連領域に適応するように調整する。
- 参考スコア(独自算出の注目度): 29.693364686494274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by the upsurge progress in text-to-image (T2I) generation models,
text-to-video (T2V) generation has experienced a significant advance as well.
Accordingly, tasks such as modifying the object or changing the style in a
video have been possible. However, previous works usually work well on trivial
and consistent shapes, and easily collapse on a difficult target that has a
largely different body shape from the original one. In this paper, we spot the
bias problem in the existing video editing method that restricts the range of
choices for the new protagonist and attempt to address this issue using the
conventional image-level personalization method. We adopt motion
personalization that isolates the motion from a single source video and then
modifies the protagonist accordingly. To deal with the natural discrepancy
between image and video, we propose a motion word with an inflated textual
embedding to properly represent the motion in a source video. We also regulate
the motion word to attend to proper motion-related areas by introducing a novel
pseudo optical flow, efficiently computed from the pre-calculated attention
maps. Finally, we decouple the motion from the appearance of the source video
with an additional pseudo word. Extensive experiments demonstrate the editing
capability of our method, taking a step toward more diverse and extensive video
editing.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルの増加により、テキスト・ツー・ビデオ(T2V)生成も大幅に進歩した。
そのため、オブジェクトの変更やビデオのスタイルの変更といったタスクが可能になった。
しかし、以前の作品は通常、自明で一貫性のある形状でうまく機能し、元のものと大きく異なる体型を持つ難しい標的で容易に崩壊する。
本稿では,従来の画像レベルのパーソナライズ手法を用いて,新たな主人公の選択範囲を制限する既存のビデオ編集手法におけるバイアス問題を特定し,この問題に対処する。
動きのパーソナライズにより、単一の映像から動きを分離し、それに応じて主人公を変更する。
映像と映像の自然な不一致に対処するため,音源映像中の動きを適切に表現するために,膨らんだテキスト埋め込みを用いた動き語を提案する。
また,事前計算された注目マップから効率よく計算した新しい擬似光学フローを導入することにより,動き語を適切な動き関連領域に適応するように調整する。
最後に、この動きを、追加の擬似単語で、ソースビデオの出現から切り離す。
広汎な実験により,本手法の編集能力を実証し,より多種多様なビデオ編集に向けて一歩踏み出した。
関連論文リスト
- Customize-A-Video: One-Shot Motion Customization of Text-to-Video
Diffusion Models [50.65904921917907]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案手法は、カスタムビデオ生成や編集、映像の外観のカスタマイズ、複数動作の組み合わせなど、様々な下流タスクに容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。