論文の概要: ToonTalker: Cross-Domain Face Reenactment
- arxiv url: http://arxiv.org/abs/2308.12866v1
- Date: Thu, 24 Aug 2023 15:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:23:36.276469
- Title: ToonTalker: Cross-Domain Face Reenactment
- Title(参考訳): ToonTalker: クロスドメインの顔再現
- Authors: Yuan Gong, Yong Zhang, Xiaodong Cun, Fei Yin, Yanbo Fan, Xuan Wang,
Baoyuan Wu, Yujiu Yang
- Abstract要約: クロスドメインな顔の再現は、実際の人のビデオで漫画のイメージを駆動することと、その逆である。
近年、実際の映像で肖像画を撮るワンショットの顔生成に多くの作品が焦点を当てている。
本稿では,異なる領域からの動作を共通の潜在空間に整列するトランスフォーマーベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 80.52472147553333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We target cross-domain face reenactment in this paper, i.e., driving a
cartoon image with the video of a real person and vice versa. Recently, many
works have focused on one-shot talking face generation to drive a portrait with
a real video, i.e., within-domain reenactment. Straightforwardly applying those
methods to cross-domain animation will cause inaccurate expression transfer,
blur effects, and even apparent artifacts due to the domain shift between
cartoon and real faces. Only a few works attempt to settle cross-domain face
reenactment. The most related work AnimeCeleb requires constructing a dataset
with pose vector and cartoon image pairs by animating 3D characters, which
makes it inapplicable anymore if no paired data is available. In this paper, we
propose a novel method for cross-domain reenactment without paired data.
Specifically, we propose a transformer-based framework to align the motions
from different domains into a common latent space where motion transfer is
conducted via latent code addition. Two domain-specific motion encoders and two
learnable motion base memories are used to capture domain properties. A source
query transformer and a driving one are exploited to project domain-specific
motion to the canonical space. The edited motion is projected back to the
domain of the source with a transformer. Moreover, since no paired data is
provided, we propose a novel cross-domain training scheme using data from two
domains with the designed analogy constraint. Besides, we contribute a cartoon
dataset in Disney style. Extensive evaluations demonstrate the superiority of
our method over competing methods.
- Abstract(参考訳): 本論文では,実写映像で漫画イメージを駆動するクロスドメイン顔再現を目標とし,その逆について述べる。
近年、実際の映像、すなわちドメイン内の再現で肖像画を駆動するワンショット音声生成に焦点を当てている作品が多い。
これらの手法をクロスドメインアニメーションに適用すると、漫画と実際の顔のドメインシフトによる不正確な表現転送、曖昧な効果、さらには明らかなアーティファクトが生じる。
クロスドメインな顔再現を解決しようとする作業はごくわずかである。
最も関連性の高い作品であるAnimeCelebでは、3D文字をアニメーションすることで、ポーズベクトルと漫画イメージのペアでデータセットを構築する必要がある。
本稿では,ペアデータを用いずにクロスドメイン再現を行う新しい手法を提案する。
具体的には、異なる領域からの動作を、潜在コード付加によって移動が実行される共通の潜在空間に整列するトランスフォーマティブベースのフレームワークを提案する。
2つのドメイン固有のモーションエンコーダと2つの学習可能なモーションベースメモリを使用してドメイン特性をキャプチャする。
ソースクエリ変換器と駆動装置を利用して、ドメイン固有の動作を標準空間に投影する。
編集された動きは変換器でソースの領域に投影される。
さらに,ペアデータを提供していないため,設計したアナロジー制約を持つ2つの領域のデータを用いた,新たなクロスドメイントレーニング手法を提案する。
また,ディズニースタイルの漫画データセットをコントリビュートする。
本手法が競合手法よりも優れていることを示す。
関連論文リスト
- Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - Pose-to-Motion: Cross-Domain Motion Retargeting with Pose Prior [48.104051952928465]
現在の学習に基づく動き合成法は、広範囲な動きデータセットに依存する。
ポーズデータは作成が容易で、画像から抽出することもできるため、よりアクセスしやすい。
提案手法は,他のキャラクタの既存のモーションキャプチャーデータセットから動きを転送することで,データのみをポーズするキャラクタに対する可塑性モーションを生成する。
論文 参考訳(メタデータ) (2023-10-31T08:13:00Z) - Expression Domain Translation Network for Cross-domain Head Reenactment [35.42539568449744]
クロスドメインの頭文字再現は、人間の動きを漫画のキャラクターを含む人間の外部のドメインに転送することを目的としている。
以前の作業では、AnimeCelebと呼ばれる大規模なアニメデータセットと、クロスドメインのヘッド再現モデルが導入されていた。
本稿では,人間の表情をアニメ表現に変換する新しい表現領域翻訳ネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T05:14:54Z) - Motion Transformer for Unsupervised Image Animation [37.35527776043379]
画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法は、通常、運動情報を予測するために畳み込みニューラルネットワーク(CNN)を使用する。
本稿では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:04:58Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。