論文の概要: SIE3D: Single-image Expressive 3D Avatar generation via Semantic Embedding and Perceptual Expression Loss
- arxiv url: http://arxiv.org/abs/2509.24004v1
- Date: Sun, 28 Sep 2025 17:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.585843
- Title: SIE3D: Single-image Expressive 3D Avatar generation via Semantic Embedding and Perceptual Expression Loss
- Title(参考訳): SIE3D: セマンティック埋め込みと知覚的表現損失による単一画像表現型3Dアバター生成
- Authors: Zhiqi Huang, Dulongkai Cui, Jinglu Hu,
- Abstract要約: SIE3Dは、単一の画像と記述テキストから表現力のある3Dアバターを生成するフレームワークである。
画像からアイデンティティの特徴を融合させ、新しい条件付けスキームを通じてテキストからセマンティックな埋め込みを行う。
テキストを正確に一致させるために、革新的な知覚的表現損失関数を導入している。
- 参考スコア(独自算出の注目度): 4.167725428773259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-fidelity 3D head avatars from a single image is challenging, as current methods lack fine-grained, intuitive control over expressions via text. This paper proposes SIE3D, a framework that generates expressive 3D avatars from a single image and descriptive text. SIE3D fuses identity features from the image with semantic embedding from text through a novel conditioning scheme, enabling detailed control. To ensure generated expressions accurately match the text, it introduces an innovative perceptual expression loss function. This loss uses a pre-trained expression classifier to regularize the generation process, guaranteeing expression accuracy. Extensive experiments show SIE3D significantly improves controllability and realism, outperforming competitive methods in identity preservation and expression fidelity on a single consumer-grade GPU. Project page: https://blazingcrystal1747.github.io/SIE3D/
- Abstract(参考訳): 単一の画像から高忠実度3Dヘッドアバターを生成することは、現在の手法では、テキストによる表現のきめ細かい直感的な制御が欠如しているため、難しい。
本稿では,1つの画像と記述テキストから表現力のある3Dアバターを生成するフレームワークであるSIE3Dを提案する。
SIE3Dは画像から識別機能を融合させ、テキストからのセマンティック埋め込みを新しい条件付け方式で実現し、詳細な制御を可能にする。
生成した表現がテキストと正確に一致するようにするために、革新的な知覚的表現損失関数を導入する。
この損失は、事前訓練された式分類器を使用して生成プロセスを規則化し、表現精度を保証する。
大規模な実験により、SIE3Dは制御性とリアリズムを著しく改善し、単一のコンシューマグレードGPU上でのID保存と表現忠実性において競合する手法よりも優れていた。
プロジェクトページ: https://blazingcrystal1747.github.io/SIE3D/
関連論文リスト
- VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文 参考訳(メタデータ) (2025-07-08T15:04:17Z) - SEREP: Semantic Facial Expression Representation for Robust In-the-Wild Capture and Retargeting [4.083283519300837]
セマンティックレベルで表現をアイデンティティから切り離すモデルであるSEREPを提案する。
我々は、低品質合成データを用いた新しい半教師付きスキームに基づいて、単眼画像から表現を予測するモデルを訓練する。
実験の結果、SEREPは最先端の手法よりも優れており、挑戦的な表現をキャプチャし、それらを新しいアイデンティティに転送する。
論文 参考訳(メタデータ) (2024-12-18T22:12:28Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - Controllable 3D Generative Adversarial Face Model via Disentangling
Shape and Appearance [63.13801759915835]
3次元顔モデリングはコンピュータビジョンとコンピュータグラフィックスの研究の活発な領域である。
本稿では,識別と表現を分離できる新しい3次元顔生成モデルを提案する。
論文 参考訳(メタデータ) (2022-08-30T13:40:48Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。