論文の概要: Limitations of Face Image Generation
- arxiv url: http://arxiv.org/abs/2309.07277v2
- Date: Thu, 21 Dec 2023 15:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:19:11.123809
- Title: Limitations of Face Image Generation
- Title(参考訳): 顔画像生成の限界
- Authors: Harrison Rosenberg, Shimaa Ahmed, Guruprasad V Ramesh, Ramya Korlakai
Vinayak, Kassem Fawaz
- Abstract要約: 顔生成における生成モデルの有効性と欠点について検討した。
テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。
本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
- 参考スコア(独自算出の注目度): 12.11955119100926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved widespread popularity due to
their unprecedented image generation capability. In particular, their ability
to synthesize and modify human faces has spurred research into using generated
face images in both training data augmentation and model performance
assessments. In this paper, we study the efficacy and shortcomings of
generative models in the context of face generation. Utilizing a combination of
qualitative and quantitative measures, including embedding-based metrics and
user studies, we present a framework to audit the characteristics of generated
faces conditioned on a set of social attributes. We applied our framework on
faces generated through state-of-the-art text-to-image diffusion models. We
identify several limitations of face image generation that include faithfulness
to the text prompt, demographic disparities, and distributional shifts.
Furthermore, we present an analytical model that provides insights into how
training data selection contributes to the performance of generative models.
- Abstract(参考訳): テキストから画像への拡散モデルは、前例のない画像生成能力によって広く普及している。
特に、人間の顔の合成と修正能力は、トレーニングデータ増強とモデルパフォーマンス評価の両方において生成された顔画像の使用の研究を加速させてきた。
本稿では,顔生成の文脈における生成モデルの有効性と欠点について検討する。
埋め込み型メトリクスとユーザスタディを含む質的,定量的な尺度を組み合わせることで,社会的属性のセットに条件付けされた生成顔の特徴を監査する枠組みを提案する。
我々は,最先端のテキストから画像への拡散モデルを用いて生成した顔に対して,このフレームワークを適用した。
テキストプロンプトへの忠実さ,人口格差,分布シフトなど,顔画像生成のいくつかの制限を明らかにする。
さらに、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
関連論文リスト
- Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Evaluating Text-to-Image Generative Models: An Empirical Study on Human
Image Synthesis [22.550416199280953]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。
コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Identity-Preserving Aging of Face Images via Latent Diffusion Models [22.2699253042219]
顔画像の老化・老化に対する遅延テキスト・ツー・イメージ拡散モデルの提案, 評価, 評価を行った。
我々のモデルは、数発の訓練で成功し、直感的なテキストプロンプトによって制御できることのメリットが加わった。
論文 参考訳(メタデータ) (2023-07-17T15:57:52Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z) - Relational Inductive Biases for Object-Centric Image Generation [10.219833196479142]
本稿では,オブジェクト中心のリレーショナル表現に基づく条件付き画像生成手法を提案する。
本稿では,その構造と関連するスタイルを表す属性グラフ上の画像中の特定のオブジェクトの生成を条件付ける手法を提案する。
提案フレームワークは、基礎となるグラフと出力画像となる2Dグリッドの両方で動作する畳み込み演算子を組み合わせたニューラルネットワークアーキテクチャを用いて実装されている。
論文 参考訳(メタデータ) (2023-03-26T11:17:17Z) - Human Image Generation: A Comprehensive Survey [60.63589576693112]
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴は、モデルアーキテクチャと入出力要求の観点から要約される。
幅広い応用可能性のために、合成された人間の画像の典型的なダウンストリーム利用、すなわち、個人認識タスクのためのデータ拡張と、ファッション顧客のためのバーチャルトライオンの2つがカバーされている。
論文 参考訳(メタデータ) (2022-12-17T15:19:45Z) - Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。
本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。
提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文 参考訳(メタデータ) (2022-10-03T14:31:39Z) - A comprehensive survey on semantic facial attribute editing using
generative adversarial networks [0.688204255655161]
多くの顔生成と操作モデルが提案されている。
セマンティック顔属性編集(Semantic face attribute editing)は、顔画像の1つ以上の属性の値を変更する過程である。
アーキテクチャに基づいて、最先端のモデルはエンコーダデコーダ、イメージ・ツー・イメージ、フォトガイドモデルに分類され、研究される。
論文 参考訳(メタデータ) (2022-05-21T13:09:38Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。