論文の概要: Fine-tuning Diffusion Models for Enhancing Face Quality in Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2406.17100v1
- Date: Mon, 24 Jun 2024 19:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:31:07.436808
- Title: Fine-tuning Diffusion Models for Enhancing Face Quality in Text-to-image Generation
- Title(参考訳): テキスト・画像生成における顔品質向上のための微調整拡散モデル
- Authors: Zhenyi Liao, Qingsong Xie, Chen Chen, Hannan Lu, Zhijie Deng,
- Abstract要約: テキストから画像生成における低品質で非現実的な人間の顔は、最も顕著な問題の一つである。
我々は、(良い、悪い)顔ペアのデータセットに基づいて、ImageRewardを微調整して、Face Score(FS)と呼ばれる新しいメトリクスを開発する。
- 参考スコア(独自算出の注目度): 12.899451649090569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have achieved significant success in generating imaginative images given textual descriptions. However, they are likely to fall short when it comes to real-life scenarios with intricate details.The low-quality, unrealistic human faces in text-to-image generation are one of the most prominent issues, hindering the wide application of DMs in practice. Targeting addressing such an issue, we first assess the face quality of generations from popular pre-trained DMs with the aid of human annotators and then evaluate the alignment between existing metrics such as ImageReward, Human Preference Score, Aesthetic Score Predictor, and Face Quality Assessment, with human judgments. Observing that existing metrics can be unsatisfactory for quantifying face quality, we develop a novel metric named Face Score (FS) by fine-tuning ImageReward on a dataset of (good, bad) face pairs cheaply crafted by an inpainting pipeline of DMs. Extensive studies reveal that FS enjoys a superior alignment with humans. On the other hand, FS opens up the door for refining DMs for better face generation. To achieve this, we incorporate a guidance loss on the denoising trajectories of the aforementioned face pairs for fine-tuning pre-trained DMs such as Stable Diffusion V1.5 and Realistic Vision V5.1. Intuitively, such a loss pushes the trajectory of bad faces toward that of good ones. Comprehensive experiments verify the efficacy of our approach for improving face quality while preserving general capability.
- Abstract(参考訳): 拡散モデル(DM)は、テキスト記述が与えられた想像的画像の生成において大きな成功を収めた。
しかし、複雑な細部を持つ現実のシナリオでは不足する可能性があり、テキスト・ツー・画像生成における低品質で非現実的な人間の顔は最も顕著な問題の1つであり、実際にDMが広く適用されるのを妨げている。
このような問題に対処するために、まず、人間のアノテータの助けを借りて、一般的な訓練済みDMから世代ごとの顔の質を評価し、その後、人間の判断により、ImageReward、Human Preference Score、Aesthetic Score Predictor、Face Quality Assessmentなどの既存の指標の整合性を評価する。
既存のメトリクスが顔の質の定量化に不満足であることを確認するため、DMの塗装パイプラインによって安価に製作された(良い、悪い)顔ペアのデータセットに基づいて、ImageRewardを微調整することで、Face Score(FS)と呼ばれる新しいメトリクスを開発する。
大規模な研究により、FSは人間に優越していることが明らかとなった。
一方、FSはより優れた顔生成のためにDMを精製する扉を開く。
これを実現するために、上述した顔対の認知軌跡の誘導損失を、安定拡散V1.5やリアルビジョンV5.1のような微調整済みのDMに組み込む。
直感的には、そのような損失は悪い顔の軌道を良い顔の軌道に押し付ける。
総合的な実験により,顔の質を向上させるためのアプローチの有効性が検証された。
関連論文リスト
- Rank-based No-reference Quality Assessment for Face Swapping [88.53827937914038]
顔スワップ法における品質測定の基準は、操作された画像とソース画像の間のいくつかの距離に依存する。
顔スワップ用に設計された新しい非参照画像品質評価法(NR-IQA)を提案する。
論文 参考訳(メタデータ) (2024-06-04T01:36:29Z) - DiffusionFace: Towards a Comprehensive Dataset for Diffusion-Based Face Forgery Analysis [71.40724659748787]
DiffusionFaceは、最初の拡散ベースのフェイスフォージェリーデータセットである。
非条件およびテキストガイドの顔画像生成、Img2Img、Inpaint、Diffusionベースの顔交換アルゴリズムなど、さまざまなフォージェリーカテゴリをカバーする。
重要なメタデータと、評価のための実世界のインターネットソースの偽顔画像データセットを提供する。
論文 参考訳(メタデータ) (2024-03-27T11:32:44Z) - Towards Real-World Blind Face Restoration with Generative Diffusion Prior [69.84480964328465]
ブラインド顔の復元はコンピュータビジョンにおいて重要な課題であり、広範囲の応用により注目されている。
低画質の顔画像から特徴を効果的に抽出するBFRffusionを提案する。
また、人種、性別、年齢といったバランスのとれた属性を備えたPFHQというプライバシ保護顔データセットも構築しています。
論文 参考訳(メタデータ) (2023-12-25T14:16:24Z) - DifFIQA: Face Image Quality Assessment Using Denoising Diffusion
Probabilistic Models [1.217503190366097]
顔画像品質評価(FIQA)技術は、これらの性能劣化を軽減することを目的としている。
拡散確率モデル(DDPM)に基づく強力な新しいFIQA手法DifFIQAを提案する。
拡散に基づく摂動は計算コストが高いため、DifFIQA(R)と呼ばれる回帰ベースの品質予測器にDifFIQAで符号化された知識を蒸留する。
論文 参考訳(メタデータ) (2023-05-09T21:03:13Z) - FaceQAN: Face Image Quality Assessment Through Adversarial Noise
Exploration [1.217503190366097]
本稿では,顔画像品質評価手法であるFaceQANを提案する。
このようにして,画像品質を敵攻撃にリンクする手法が提案されている。
実験の結果,FaceQANはいくつかの望ましい特徴を示しながら,競争的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-12-05T09:37:32Z) - AdaFace: Quality Adaptive Margin for Face Recognition [56.99208144386127]
本稿では、損失関数、すなわち画像品質における適応性の別の側面を紹介する。
そこで本稿では,画像品質に基づいて異なる難易度を示す新たな損失関数を提案する。
提案手法は,4つのデータセット上でのSoTA(State-of-the-art)による顔認識性能を向上させる。
論文 参考訳(メタデータ) (2022-04-03T01:23:41Z) - FaceQgen: Semi-Supervised Deep Learning for Face Image Quality
Assessment [19.928262020265965]
FaceQgenは、ジェネレーティブ・アドバイサル・ネットワークに基づく顔画像の非参照品質評価手法である。
顔認識精度に関連するスカラー品質尺度を生成する。
SCfaceデータベースを使用して、スクラッチからトレーニングされる。
論文 参考訳(メタデータ) (2022-01-03T17:22:38Z) - Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails [53.080403912727604]
Inpainting Generative Adversarial Network, Pro-UIGANを提案する。
顔の形状を利用して、隠された小さな顔の補充とアップサンプリング(8*)を行う。
Pro-UIGANは、HR面を視覚的に満足させ、下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-02T02:29:24Z) - Joint Face Image Restoration and Frontalization for Recognition [79.78729632975744]
現実世界のシナリオでは、大きなポーズ、悪い照明、低解像度、ぼやけ、ノイズなど、多くの要因が顔認識性能を損なう可能性がある。
それまでの努力は通常、まず品質の低い顔から高品質な顔に復元し、次に顔認識を行う。
与えられた低品質の顔からフロンダル化された高品質の顔を復元する多段階顔復元モデルを提案する。
論文 参考訳(メタデータ) (2021-05-12T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。