論文の概要: Limitations of Face Image Generation
- arxiv url: http://arxiv.org/abs/2309.07277v2
- Date: Thu, 21 Dec 2023 15:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:19:11.123809
- Title: Limitations of Face Image Generation
- Title(参考訳): 顔画像生成の限界
- Authors: Harrison Rosenberg, Shimaa Ahmed, Guruprasad V Ramesh, Ramya Korlakai
Vinayak, Kassem Fawaz
- Abstract要約: 顔生成における生成モデルの有効性と欠点について検討した。
テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。
本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
- 参考スコア(独自算出の注目度): 12.11955119100926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved widespread popularity due to
their unprecedented image generation capability. In particular, their ability
to synthesize and modify human faces has spurred research into using generated
face images in both training data augmentation and model performance
assessments. In this paper, we study the efficacy and shortcomings of
generative models in the context of face generation. Utilizing a combination of
qualitative and quantitative measures, including embedding-based metrics and
user studies, we present a framework to audit the characteristics of generated
faces conditioned on a set of social attributes. We applied our framework on
faces generated through state-of-the-art text-to-image diffusion models. We
identify several limitations of face image generation that include faithfulness
to the text prompt, demographic disparities, and distributional shifts.
Furthermore, we present an analytical model that provides insights into how
training data selection contributes to the performance of generative models.
- Abstract(参考訳): テキストから画像への拡散モデルは、前例のない画像生成能力によって広く普及している。
特に、人間の顔の合成と修正能力は、トレーニングデータ増強とモデルパフォーマンス評価の両方において生成された顔画像の使用の研究を加速させてきた。
本稿では,顔生成の文脈における生成モデルの有効性と欠点について検討する。
埋め込み型メトリクスとユーザスタディを含む質的,定量的な尺度を組み合わせることで,社会的属性のセットに条件付けされた生成顔の特徴を監査する枠組みを提案する。
我々は,最先端のテキストから画像への拡散モデルを用いて生成した顔に対して,このフレームワークを適用した。
テキストプロンプトへの忠実さ,人口格差,分布シフトなど,顔画像生成のいくつかの制限を明らかにする。
さらに、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
関連論文リスト
- CemiFace: Center-based Semi-hard Synthetic Face Generation for Face Recognition [33.17771044475894]
顔画像と顔の同一性のある顔画像は、訓練された顔認識モデルの性能において極めて有効であることを示す。
そこで本研究では, 対象中心と様々なレベルの類似性を持つ顔サンプルを生成する, 拡散に基づく新しいアプローチ(すなわち, 中心をベースとした半硬顔生成)を提案する。
論文 参考訳(メタデータ) (2024-09-27T16:11:30Z) - Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models [0.0]
生成モデルの発展にもかかわらず、ほとんどの研究はバイアスの存在を無視している。
本稿では,人間の顔,グループ,特定対象物の正確な画像を生成する上で,その性能を定性的に評価するだけでなく,社会的バイアス分析を行うことにより,複数のテキスト・画像モデルについて検討する。
期待通り、より大きな能力を持つモデルは、高品質な画像を生成する。しかし、これらのモデルが持つ固有の性別や社会的バイアスも文書化しており、それらの影響と限界をより完全に理解している。
論文 参考訳(メタデータ) (2024-06-28T14:10:42Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Identity-Preserving Aging of Face Images via Latent Diffusion Models [22.2699253042219]
顔画像の老化・老化に対する遅延テキスト・ツー・イメージ拡散モデルの提案, 評価, 評価を行った。
我々のモデルは、数発の訓練で成功し、直感的なテキストプロンプトによって制御できることのメリットが加わった。
論文 参考訳(メタデータ) (2023-07-17T15:57:52Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。
本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。
提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文 参考訳(メタデータ) (2022-10-03T14:31:39Z) - A comprehensive survey on semantic facial attribute editing using
generative adversarial networks [0.688204255655161]
多くの顔生成と操作モデルが提案されている。
セマンティック顔属性編集(Semantic face attribute editing)は、顔画像の1つ以上の属性の値を変更する過程である。
アーキテクチャに基づいて、最先端のモデルはエンコーダデコーダ、イメージ・ツー・イメージ、フォトガイドモデルに分類され、研究される。
論文 参考訳(メタデータ) (2022-05-21T13:09:38Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。