論文の概要: VectorTalker: SVG Talking Face Generation with Progressive Vectorisation
- arxiv url: http://arxiv.org/abs/2312.11568v1
- Date: Mon, 18 Dec 2023 01:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 18:19:55.965500
- Title: VectorTalker: SVG Talking Face Generation with Progressive Vectorisation
- Title(参考訳): VectorTalker: SVGがプログレッシブベクタライゼーションによる顔生成を語る
- Authors: Hao Hu, Xuan Wang, Jingxiang Sun, Yanbo Fan, Yu Guo, Caigui Jiang
- Abstract要約: 本稿では,VectorTalkerと呼ばれる,スケーラブルなベクトルグラフィック再構成とアニメーション手法を提案する。
高忠実度再構成のために、VectorTalkerは階層的に粗い方法でベクトル像を階層的に再構成する。
鮮明な音声駆動型顔アニメーションでは,顔のランドマークを中間動作表現として用いることを提案する。
- 参考スコア(独自算出の注目度): 21.087035109990257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-fidelity and efficient audio-driven talking head generation has been a
key research topic in computer graphics and computer vision. In this work, we
study vector image based audio-driven talking head generation. Compared with
directly animating the raster image that most widely used in existing works,
vector image enjoys its excellent scalability being used for many applications.
There are two main challenges for vector image based talking head generation:
the high-quality vector image reconstruction w.r.t. the source portrait image
and the vivid animation w.r.t. the audio signal. To address these, we propose a
novel scalable vector graphic reconstruction and animation method, dubbed
VectorTalker. Specifically, for the highfidelity reconstruction, VectorTalker
hierarchically reconstructs the vector image in a coarse-to-fine manner. For
the vivid audio-driven facial animation, we propose to use facial landmarks as
intermediate motion representation and propose an efficient landmark-driven
vector image deformation module. Our approach can handle various styles of
portrait images within a unified framework, including Japanese manga, cartoon,
and photorealistic images. We conduct extensive quantitative and qualitative
evaluations and the experimental results demonstrate the superiority of
VectorTalker in both vector graphic reconstruction and audio-driven animation.
- Abstract(参考訳): 高忠実で効率的な音声駆動音声ヘッド生成は、コンピュータグラフィックスとコンピュータビジョンにおいて重要な研究トピックである。
本研究では,ベクトル画像に基づく音声駆動音声ヘッド生成について検討する。
既存の作品で広く使われているrasterイメージを直接アニメーションするのに比べ、vector imageは多くのアプリケーションで使われている優れたスケーラビリティを享受しています。
ベクター画像に基づく音声ヘッド生成には、音源ポートレート画像の高品質なベクター画像再構成w.r.tと、音声信号の鮮やかなアニメーションw.r.tの2つの主な課題がある。
そこで本研究では,VectorTalkerと呼ばれる,スケーラブルなベクトルグラフィック再構成とアニメーション手法を提案する。
具体的には、高忠実度再構成のために、VectorTalkerは階層的に粗い方法でベクトル画像を階層的に再構成する。
そこで本研究では,顔ランドマークを中間運動表現として使用し,効率的なランドマーク駆動ベクター画像変形モジュールを提案する。
本手法は,日本漫画,漫画,フォトリアリズム画像など,統一された枠組み内で様々なポートレート画像を扱うことができる。
本研究では,ベクトル画像再構成と音声駆動アニメーションの両面において,VectorTalkerの優位性を実証し,定量的・定性的な評価を行った。
関連論文リスト
- SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis [66.44553285020066]
SuperSVGは、高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルである。
本稿では,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。
再現精度と推定時間の観点から, 最先端手法と比較して, 提案手法の優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:43:23Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - Text-Guided Vector Graphics Customization [31.41266632288932]
テキストのプロンプトに基づいて高品質なベクトルグラフィックスを生成する新しいパイプラインを提案する。
提案手法は,大規模な事前学習されたテキスト・ツー・イメージ・モデルの能力を利用する。
我々は,ベクトルレベル,画像レベル,テキストレベルの観点から,複数の指標を用いて評価を行った。
論文 参考訳(メタデータ) (2023-09-21T17:59:01Z) - Style Transfer for 2D Talking Head Animation [11.740847190449314]
本稿では,学習可能なスタイル参照を用いた対話型ヘッドアニメーション生成手法を提案する。
本フレームワークは,1つの入力画像とオーディオストリームに基づいて,2次元音声ヘッドアニメーションを再構成することができる。
論文 参考訳(メタデータ) (2023-03-17T07:02:59Z) - VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.93345261434943]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。
近年のテキスト・ツー・3D研究に触発されて,Score Distillation Smpling を用いたキャプションと整合したSVGを学習した。
実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (2022-11-21T10:04:27Z) - Towards Layer-wise Image Vectorization [57.26058135389497]
画像をSVGに変換し,画像トポロジを同時に維持するためのレイヤワイズ画像ベクトル化(LIVE)を提案する。
Liveは、人間の視点にセマンティックに整合した階層構造を持つコンパクトなフォームを生成する。
Liveは、デザイナの両方のために編集可能なSVGを起動し、他のアプリケーションで使用することができる。
論文 参考訳(メタデータ) (2022-06-09T17:55:02Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。