論文の概要: GenEAva: Generating Cartoon Avatars with Fine-Grained Facial Expressions from Realistic Diffusion-based Faces
- arxiv url: http://arxiv.org/abs/2504.07945v1
- Date: Thu, 10 Apr 2025 17:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:58.579327
- Title: GenEAva: Generating Cartoon Avatars with Fine-Grained Facial Expressions from Realistic Diffusion-based Faces
- Title(参考訳): GenEAva: 現実的拡散に基づく顔の微細な顔表現によるカルトーンアバターの生成
- Authors: Hao Yu, Rupayan Mallick, Margrit Betke, Sarah Adel Bargal,
- Abstract要約: 顔のきめ細かい高品質の漫画アバターを作成するための新しいフレームワークGenEAvaを提案する。
提案手法は,高精細で表現力のある表情を合成するために,最先端のテキスト・画像拡散モデルを微調整する。
我々は135個のきめ細かい表情を捉えるために特別に設計された最初の表現型マンガアバターデータセットGenEAva 1.0を紹介した。
- 参考スコア(独自算出の注目度): 15.26953477181137
- License:
- Abstract: Cartoon avatars have been widely used in various applications, including social media, online tutoring, and gaming. However, existing cartoon avatar datasets and generation methods struggle to present highly expressive avatars with fine-grained facial expressions and are often inspired from real-world identities, raising privacy concerns. To address these challenges, we propose a novel framework, GenEAva, for generating high-quality cartoon avatars with fine-grained facial expressions. Our approach fine-tunes a state-of-the-art text-to-image diffusion model to synthesize highly detailed and expressive facial expressions. We then incorporate a stylization model that transforms these realistic faces into cartoon avatars while preserving both identity and expression. Leveraging this framework, we introduce the first expressive cartoon avatar dataset, GenEAva 1.0, specifically designed to capture 135 fine-grained facial expressions, featuring 13,230 expressive cartoon avatars with a balanced distribution across genders, racial groups, and age ranges. We demonstrate that our fine-tuned model generates more expressive faces than the state-of-the-art text-to-image diffusion model SDXL. We also verify that the cartoon avatars generated by our framework do not include memorized identities from fine-tuning data. The proposed framework and dataset provide a diverse and expressive benchmark for future research in cartoon avatar generation.
- Abstract(参考訳): カルトゥーンのアバターはソーシャルメディア、オンラインチューター、ゲームなど様々な用途で広く使われている。
しかし、既存の漫画のアバターデータセットと生成手法は、非常に表現力の高いアバターをきめ細かな表情で表現するのに苦労し、しばしば現実世界のアイデンティティからインスパイアされ、プライバシーの懸念が高まる。
これらの課題に対処するために,顔のきめ細かい高品質な漫画アバターを作成するための新しいフレームワークGenEAvaを提案する。
提案手法は,高精細で表現力のある表情を合成するために,最先端のテキスト・画像拡散モデルを微調整する。
次に、これらの現実的な顔を、アイデンティティと表現の両方を保存しながら、漫画のアバターに変換するスタイリングモデルを組み込む。
この枠組みを活用することで、表現力のある漫画アバターデータセットGenEAva 1.0を導入し、特に135個のきめ細かい表情を捉え、13,230個の表現力のある漫画アバターを性別、人種グループ、年齢範囲に分散させる。
本モデルでは,最先端のテキスト・画像拡散モデルSDXLよりも表現力のある顔を生成する。
また,本フレームワークによって生成された漫画のアバターは,微調整データから記憶されたアイデンティティを含まないことも確認した。
提案したフレームワークとデータセットは、漫画アバター生成における将来の研究のための多様かつ表現力のあるベンチマークを提供する。
関連論文リスト
- GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars [44.8290935585746]
フォトリアリスティックでコントロール可能な3Dアバターは、バーチャルリアリティー(VR/MR)、テレプレゼンス、ゲーム、映画制作など、様々な用途に欠かせない。
アバター作成の伝統的な方法は、しばしば各アバターのスキャンと再構築に時間を要する。
本稿では,多彩なアイデンティティを持つ写真リアルな顔アバターを生成可能なテキスト条件生成モデルを提案する。
論文 参考訳(メタデータ) (2024-08-24T21:25:22Z) - DEGAS: Detailed Expressions on Full-Body Gaussian Avatars [13.683836322899953]
顔表情の豊かなフルボディアバターに対する3次元ガウススティング(3DGS)に基づくモデリング手法であるDEGASを提案する。
本稿では,2次元の顔と3次元のアバターのギャップを埋めて,2次元の肖像画にのみ訓練された潜在空間を採用することを提案する。
論文 参考訳(メタデータ) (2024-08-20T06:52:03Z) - DivAvatar: Diverse 3D Avatar Generation with a Single Prompt [95.9978722953278]
DivAvatarは、単一のテキストプロンプトから多様なアバターを生成するフレームワークである。
生成の多様性と視覚的品質を達成するための2つの重要な設計がある。
大規模な実験により、ディヴァバターは様々な外観のアバターを生成するのに非常に多用途であることが示されている。
論文 参考訳(メタデータ) (2024-02-27T08:10:31Z) - AvatarStudio: High-fidelity and Animatable 3D Avatar Creation from Text [71.09533176800707]
アバターストゥディオ(AvatarStudio)は、アニマタブルな人間のアバターのために、明瞭なテクスチャ化された3Dメッシュを生成する粗大で微細な生成モデルである。
調音メッシュ表現とDensePose条件拡散モデルとの相乗効果を効果的に活用することにより、AvatarStudioは高品質なアバターを作成することができる。
論文 参考訳(メタデータ) (2023-11-29T18:59:32Z) - GAIA: Zero-shot Talking Avatar Generation [64.78978434650416]
GAIA(Generative AI for Avatar)を導入し、会話アバター生成におけるドメインの先行性を排除した。
GAIAは、自然性、多様性、リップシンク品質、視覚的品質の点で、これまでのベースラインモデルを上回っている。
汎用的で、制御可能な音声アバター生成やテキストインストラクションされたアバター生成など、さまざまなアプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-11-26T08:04:43Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文 参考訳(メタデータ) (2023-04-14T22:00:44Z) - OTAvatar: One-shot Talking Face Avatar with Controllable Tri-plane
Rendering [81.55960827071661]
制御性、一般化性、効率性は、ニューラル暗黙の場で表される顔アバターを構成する主要な目的である。
汎用制御可能な3面描画ソリューションにより顔アバターを構成するワンショット面アバター(OTAvatar)を提案する。
論文 参考訳(メタデータ) (2023-03-26T09:12:03Z) - 3D Cartoon Face Generation with Controllable Expressions from a Single
GAN Image [142.047662926209]
我々は、単一の2D GAN生成人間の顔から3次元マンガの顔形状を生成する。
我々は3次元マンガの顔の形状を再構築できるように、ポーズや照明の異なる画像を生成するために潜時符号を操作する。
論文 参考訳(メタデータ) (2022-07-29T01:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。