論文の概要: StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation
- arxiv url: http://arxiv.org/abs/2508.11203v1
- Date: Fri, 15 Aug 2025 04:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.740492
- Title: StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation
- Title(参考訳): StyleMM:テキスト駆動アライメント画像変換による3次元形態素顔モデル
- Authors: Seungmi Lee, Kwan Yun, Junyong Noh,
- Abstract要約: StyleMMは、ユーザ定義のテキスト記述に基づいて、スタイリングされた3Dモーフィブルモデル(3DMM)を構築することができるフレームワークである。
提案手法は,テキスト誘導画像画像変換(i2i)を用いて生成したスタイリングされた顔画像を用いて,これらのモデルを微調整する。
本手法は,身元レベルの顔の多様性とスタイル化能力の観点から,最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 4.500637354443275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce StyleMM, a novel framework that can construct a stylized 3D Morphable Model (3DMM) based on user-defined text descriptions specifying a target style. Building upon a pre-trained mesh deformation network and a texture generator for original 3DMM-based realistic human faces, our approach fine-tunes these models using stylized facial images generated via text-guided image-to-image (i2i) translation with a diffusion model, which serve as stylization targets for the rendered mesh. To prevent undesired changes in identity, facial alignment, or expressions during i2i translation, we introduce a stylization method that explicitly preserves the facial attributes of the source image. By maintaining these critical attributes during image stylization, the proposed approach ensures consistent 3D style transfer across the 3DMM parameter space through image-based training. Once trained, StyleMM enables feed-forward generation of stylized face meshes with explicit control over shape, expression, and texture parameters, producing meshes with consistent vertex connectivity and animatability. Quantitative and qualitative evaluations demonstrate that our approach outperforms state-of-the-art methods in terms of identity-level facial diversity and stylization capability. The code and videos are available at [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).
- Abstract(参考訳): StyleMMは,ターゲットスタイルを指定するユーザ定義のテキスト記述に基づいて,スタイリングされた3Dモーフブルモデル(3DMM)を構築することのできる,新しいフレームワークである。
従来の3DMMをベースとしたリアルな顔用メッシュ変形ネットワークとテクスチャジェネレータをベースとした本手法では,テキスト誘導画像・画像(i2i)変換と拡散モデルを用いて生成したスタイリゼーション顔画像を用いて,レンダリングメッシュのスタイリゼーションターゲットとして機能する。
i2i翻訳における顔の同一性,顔のアライメント,表情の変化を防止するため,画像の顔の特徴を明示的に保存するスタイリング手法を提案する。
画像スタイリング中にこれらの重要な属性を維持することにより、画像ベーストレーニングにより、3DMMパラメータ空間を一貫した3Dスタイルの転送が保証される。
トレーニングが完了すると、StyleMMは形状、表現、テクスチャパラメータを明示的に制御したスタイル化されたフェイスメッシュのフィードフォワード生成を可能にし、一貫した頂点接続とアニマタビリティを備えたメッシュを生成する。
定量的および定性的な評価は,身元レベルの顔の多様性とスタイリゼーション能力の観点から,我々のアプローチが最先端の手法より優れていることを示す。
コードとビデオは[kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page]で公開されている。
関連論文リスト
- Dream-in-Style: Text-to-3D Generation Using Stylized Score Distillation [14.079043195485601]
本稿では,3次元オブジェクトをスタイルで生成する手法を提案する。
本手法は,入力としてテキストプロンプトとスタイル参照画像を取り,ニューラルラディアンス場を再構成して3次元モデルを合成する。
論文 参考訳(メタデータ) (2024-06-05T16:27:34Z) - LeGO: Leveraging a Surface Deformation Network for Animatable Stylized Face Generation with One Example [5.999050119438177]
所望のトポロジを持つ高度にスタイリングされた3次元顔モデルを作成する方法を提案する。
提案手法は3DMMを用いて表面変形ネットワークをトレーニングし,その領域を微分可能なメッシュと方向CLIP損失を用いて対象に翻訳する。
ネットワークは、差別化可能なメッシュと指向的なCLIP損失を使用して、ターゲットのスタイルを模倣することにより、3Dフェイスメッシュのスタイリングを実現する。
論文 参考訳(メタデータ) (2024-03-22T14:20:54Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - ClipFace: Text-guided Editing of Textured 3D Morphable Models [33.83015491013442]
ClipFaceはテクスチャ化された顔の3次元形態素モデルのテキスト誘導編集のための新しい自己教師型アプローチである。
ユーザフレンドリーな言語プロンプトを用いて表現の制御と3D顔の出現を可能にする。
我々のモデルは、事前訓練されたCLIPモデルに基づいて、差別化可能なレンダリングと損失を利用して、自己教師型で訓練される。
論文 参考訳(メタデータ) (2022-12-02T19:01:08Z) - StyleRig: Rigging StyleGAN for 3D Control over Portrait Images [81.43265493604302]
StyleGANは、目、歯、髪、コンテキスト(首、肩、背景)のある顔の肖像画を生成する
StyleGANには、顔ポーズ、表情、シーン照明といった3Dで解釈可能なセマンティックフェイスパラメータに対するrigのようなコントロールがない。
3DMMを用いて,事前に訓練された,固定されたStyleGANに対して,顔リグライクな制御を行うための最初の方法を提案する。
論文 参考訳(メタデータ) (2020-03-31T21:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。