論文の概要: Image Animation with Perturbed Masks
- arxiv url: http://arxiv.org/abs/2011.06922v3
- Date: Tue, 29 Mar 2022 09:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 00:10:10.769882
- Title: Image Animation with Perturbed Masks
- Title(参考訳): 摂動マスクによる画像アニメーション
- Authors: Yoav Shalev, Lior Wolf
- Abstract要約: 我々は,同じタイプのオブジェクトを描画する駆動ビデオにより,ソースイメージの画像アニメーションのための新しいアプローチを提案する。
我々はポーズモデルの存在を前提とせず、オブジェクトの構造を知ることなく任意のオブジェクトをアニメーション化することができる。
- 参考スコア(独自算出の注目度): 95.94432031144716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach for image-animation of a source image by a
driving video, both depicting the same type of object. We do not assume the
existence of pose models and our method is able to animate arbitrary objects
without the knowledge of the object's structure. Furthermore, both, the driving
video and the source image are only seen during test-time. Our method is based
on a shared mask generator, which separates the foreground object from its
background, and captures the object's general pose and shape. To control the
source of the identity of the output frame, we employ perturbations to
interrupt the unwanted identity information on the driver's mask. A
mask-refinement module then replaces the identity of the driver with the
identity of the source. Conditioned on the source image, the transformed mask
is then decoded by a multi-scale generator that renders a realistic image, in
which the content of the source frame is animated by the pose in the driving
video. Due to the lack of fully supervised data, we train on the task of
reconstructing frames from the same video the source image is taken from. Our
method is shown to greatly outperform the state-of-the-art methods on multiple
benchmarks. Our code and samples are available at
https://github.com/itsyoavshalev/Image-Animation-with-Perturbed-Masks.
- Abstract(参考訳): 我々は,同じタイプのオブジェクトを描画する駆動ビデオにより,ソースイメージの画像アニメーションのための新しいアプローチを提案する。
我々はポーズモデルの存在を仮定せず、この手法はオブジェクトの構造を知らずに任意のオブジェクトをアニメーションすることができる。
さらに、駆動ビデオとソースイメージの両方がテスト時間中にのみ表示される。
提案手法は,フォアグラウンドオブジェクトと背景を分離し,オブジェクトの一般的なポーズと形状をキャプチャする共有マスク生成器をベースとする。
出力フレームのアイデンティティのソースを制御するために,ドライバのマスク上の不要なアイデンティティ情報を中断するために,摂動を用いた。
マスクリファインメントモジュールはドライバのIDをソースのIDに置き換える。
ソース画像に条件付けされた後、トランスフォーメーションされたマスクは、ドライブビデオのポーズによってソースフレームの内容がアニメーションされるリアルな画像をレンダリングするマルチスケールジェネレータによってデコードされる。
完全に監視されたデータがないため、ソースイメージが撮影された同じビデオからフレームを再構築するタスクをトレーニングします。
本手法は,複数のベンチマークにおいて最先端手法を大きく上回ることを示す。
私たちのコードとサンプルはhttps://github.com/itsyoavshalev/Image-Animation-with-Perturbed-Masks.comで公開されています。
関連論文リスト
- MegActor: Harness the Power of Raw Video for Vivid Portrait Animation [16.013989935948114]
MegActorは生のビデオの力を利用して、鮮やかな肖像画のアニメーションを作る。
本稿では,一貫した動きと表情を持つビデオを生成するための合成データ生成フレームワークを提案する。
さらに,運転映像への参照画像の外観の移動を図り,運転映像における顔の詳細の影響を排除した。
論文 参考訳(メタデータ) (2024-05-31T14:33:13Z) - Lazy Diffusion Transformer for Interactive Image Editing [79.75128130739598]
部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
論文 参考訳(メタデータ) (2024-04-18T17:59:27Z) - Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos [32.74215702447293]
本稿では,所定のレイアウトに従うフォトリアリスティックな出力を合成する生成モデルを提案する。
本手法は,元の画像から細かな詳細を転送し,その部分の同一性を保持する。
簡単なセグメンテーションと粗い2D操作により、ユーザの入力に忠実なフォトリアリスティックな編集を合成できることを示す。
論文 参考訳(メタデータ) (2024-03-19T17:59:58Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - Thin-Plate Spline Motion Model for Image Animation [9.591298403129532]
イメージアニメーションは、ドライビングビデオに従って、ソースイメージ内の静的オブジェクトに生命をもたらす。
近年の研究では、事前知識を使わずに、教師なし手法による任意の物体の移動を試みている。
ソース内のオブジェクトと駆動イメージの間に大きなポーズギャップがある場合、現在の教師なしメソッドにとって、これは依然として重要な課題である。
論文 参考訳(メタデータ) (2022-03-27T18:40:55Z) - Image Animation with Keypoint Mask [0.0]
モーショントランスファー(Motion Transfer)は、特定の駆動ビデオからの動作に応じて、単一のソース画像の将来のビデオフレームを合成するタスクである。
本研究では,キーポイントのヒートマップから,明示的な動作表現を伴わずに構造を抽出する。
そして、画像と映像から構造を抽出し、深部ジェネレータにより映像に応じて映像をワープする。
論文 参考訳(メタデータ) (2021-12-20T11:35:06Z) - Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。
トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。
背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文 参考訳(メタデータ) (2021-02-01T14:17:31Z) - Learned Equivariant Rendering without Transformation Supervision [105.15592625987911]
本稿では,映像からシーン表現を学習するフレームワークを提案する。
トレーニング後、シーンをリアルタイムで操作してレンダリングすることで、オブジェクト、変換、バックグラウンドの目に見えない組み合わせを作ることができます。
論文 参考訳(メタデータ) (2020-11-11T14:05:05Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。