論文の概要: ID-Consistent, Precise Expression Generation with Blendshape-Guided Diffusion
- arxiv url: http://arxiv.org/abs/2510.04706v1
- Date: Mon, 06 Oct 2025 11:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.825429
- Title: ID-Consistent, Precise Expression Generation with Blendshape-Guided Diffusion
- Title(参考訳): Blendshape-Guided Diffusion を用いた ID-Consistent, Precise Expression 生成
- Authors: Foivos Paraperas Papantoniou, Stefanos Zafeiriou,
- Abstract要約: 特定の表情の被写体を忠実に再現する拡散型フレームワークを提案する。
我々のアダプタは、基本的な感情を超えて微妙なマイクロ表現と表現的遷移を一般化する。
さらに、プラグ可能な参照アダプタは、合成中に参照フレームから外観を転送することで、実画像での表現編集を可能にする。
- 参考スコア(独自算出の注目度): 40.50436862878818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric generative models designed for AI-driven storytelling must bring together two core capabilities: identity consistency and precise control over human performance. While recent diffusion-based approaches have made significant progress in maintaining facial identity, achieving fine-grained expression control without compromising identity remains challenging. In this work, we present a diffusion-based framework that faithfully reimagines any subject under any particular facial expression. Building on an ID-consistent face foundation model, we adopt a compositional design featuring an expression cross-attention module guided by FLAME blendshape parameters for explicit control. Trained on a diverse mixture of image and video data rich in expressive variation, our adapter generalizes beyond basic emotions to subtle micro-expressions and expressive transitions, overlooked by prior works. In addition, a pluggable Reference Adapter enables expression editing in real images by transferring the appearance from a reference frame during synthesis. Extensive quantitative and qualitative evaluations show that our model outperforms existing methods in tailored and identity-consistent expression generation. Code and models can be found at https://github.com/foivospar/Arc2Face.
- Abstract(参考訳): AI駆動のストーリーテリングのために設計された人間中心の生成モデルは、アイデンティティの一貫性と人間のパフォーマンスの正確な制御という、2つのコア機能をまとめなければならない。
最近の拡散に基づくアプローチは、顔のアイデンティティを維持する上で大きな進歩を遂げているが、アイデンティティを損なうことなく、きめ細かい表現制御を実現することは依然として困難である。
本研究では,特定の表情の被写体を忠実に再現する拡散に基づくフレームワークを提案する。
ID一貫性フェースファウンデーションモデルに基づいて、FLAMEブレンドシェープパラメータで案内される表現のクロスアテンションモジュールを特徴とする構成設計を採用し、明示的な制御を行う。
表現的変化に富んだ画像データと映像データを多種多様に混合して学習し、このアダプタは基本的な感情を超えて微妙なマイクロ表現や表現的遷移を一般化する。
さらに、プラグ可能な参照アダプタは、合成中に参照フレームから外観を転送することで、実画像での表現編集を可能にする。
定量的および定性的な評価により,本モデルが既存の手法よりも優れた適合性および自己同一性のある表現生成性能を示すことが示された。
コードとモデルはhttps://github.com/foivospar/Arc2Faceで見ることができる。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。
これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。
本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文 参考訳(メタデータ) (2025-03-19T20:50:10Z) - EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.314556078632412]
ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文 参考訳(メタデータ) (2024-12-02T08:24:11Z) - EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Multimodal-driven Talking Face Generation via a Unified Diffusion-based
Generator [29.58245990622227]
マルチモーダル駆動型トーキングフェイス生成(マルチモーダルドリブントーキングフェイスジェネレーション)とは、画像や動画から移動された、あるいはテキストやオーディオから推定される、与えられたポーズ、表情、および視線で肖像画をアニメーションすることを指す。
既存の手法はテキスト・モーダルの可能性を無視し、ジェネレータは主に不安定なGANフレームワークと結合したソース指向の機能パラダイムに従う。
不安定なシーソースタイルの最適化が不要な新しいパラダイムを導出し、単純で安定で効果的なトレーニングと推論スキームを導出する。
論文 参考訳(メタデータ) (2023-05-04T07:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。