論文の概要: ExpertGen: Training-Free Expert Guidance for Controllable Text-to-Face Generation
- arxiv url: http://arxiv.org/abs/2505.17256v1
- Date: Thu, 22 May 2025 20:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.679366
- Title: ExpertGen: Training-Free Expert Guidance for Controllable Text-to-Face Generation
- Title(参考訳): ExpertGen: 制御可能なテキスト・ツー・フェイス生成のためのトレーニング不要のエキスパートガイダンス
- Authors: Liang Shi, Yun Fu,
- Abstract要約: ExpertGenはトレーニング不要のフレームワークで、トレーニング済みのエキスパートモデルを活用して、細かいコントロールで生成をガイドする。
我々は、専門家モデルが高い精度で生成過程を導出できることを定性的かつ定量的に示す。
- 参考スコア(独自算出の注目度): 49.294779074232686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have significantly improved text-to-face generation, but achieving fine-grained control over facial features remains a challenge. Existing methods often require training additional modules to handle specific controls such as identity, attributes, or age, making them inflexible and resource-intensive. We propose ExpertGen, a training-free framework that leverages pre-trained expert models such as face recognition, facial attribute recognition, and age estimation networks to guide generation with fine control. Our approach uses a latent consistency model to ensure realistic and in-distribution predictions at each diffusion step, enabling accurate guidance signals to effectively steer the diffusion process. We show qualitatively and quantitatively that expert models can guide the generation process with high precision, and multiple experts can collaborate to enable simultaneous control over diverse facial aspects. By allowing direct integration of off-the-shelf expert models, our method transforms any such model into a plug-and-play component for controllable face generation.
- Abstract(参考訳): 近年の拡散モデルの進歩はテキスト・ツー・フェイス・ジェネレーションを著しく改善しているが、顔の特徴をきめ細かな制御を実現することは依然として課題である。
既存のメソッドでは、ID、属性、年齢などの特定のコントロールを扱うために追加のモジュールをトレーニングする必要があることが多い。
本稿では,顔認識,顔属性認識,年齢推定ネットワークといった事前学習されたエキスパートモデルを活用して,詳細な制御で生成をガイドするトレーニングフリーフレームワークであるExpertGenを提案する。
提案手法では,各拡散段階における現実的かつ非分配的な予測を保証するために,遅延一貫性モデルを用いて,拡散過程を効果的に制御する正確な誘導信号を実現する。
我々は、専門家モデルが高い精度で生成プロセスを導くことができ、複数の専門家が協力して多様な顔の側面を同時に制御できることを質的かつ定量的に示す。
市販のエキスパートモデルを直接統合することにより、このようなモデルをプラグアンドプレイコンポーネントに変換し、制御可能な顔生成を実現する。
関連論文リスト
- Bringing Diversity from Diffusion Models to Semantic-Guided Face Asset Generation [10.402456492958457]
本研究の目的は、意味的に制御可能な生成ネットワークが、デジタル顔モデリングプロセスの制御を強化できることを実証することである。
本稿では,事前学習した拡散モデルを用いて,高品質な3次元顔データベースを作成する新しいデータ生成パイプラインを提案する。
高品質な顔アセットを作成・編集するための包括的システムを導入する。
論文 参考訳(メタデータ) (2025-04-21T17:38:50Z) - SpectR: Dynamically Composing LM Experts with Spectral Routing [37.969478059005574]
本稿では、推論中の各ステップで専門家モデルを動的に構成するアプローチであるSPECTRを紹介する。
SPECTRでは、代替のトレーニング不要な手法よりもルーティング精度が向上し、エキスパートドメイン間のタスク性能が向上することを示す。
論文 参考訳(メタデータ) (2025-04-04T13:58:44Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - TCIG: Two-Stage Controlled Image Generation with Quality Enhancement
through Diffusion [0.0]
画像生成における制御性と高品質を両立させる2段階の手法を提案する。
制御性と高品質を分離することにより,優れた結果が得られる。
論文 参考訳(メタデータ) (2024-03-02T13:59:02Z) - Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation [7.1629002695210024]
ドメイン内生成は、unconditional generation、text-to-image、画像編集、3D生成など、特定のドメイン内でさまざまなタスクを実行することを目的としている。
初期の研究は通常、特定のタスクとドメインごとに特別なジェネレータを訓練する必要があり、しばしば完全にラベル付けされたデータに依存していた。
強力な生成能力と拡散モデルの幅広い応用により、私たちは、これらのモデルをドメイン内生成に活用するためにラベルのないデータを活用することを模索しています。
論文 参考訳(メタデータ) (2023-12-13T14:59:49Z) - Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。
提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。
本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2022-08-26T10:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。