Fugu-MT 論文翻訳(概要): Fine-tuning Diffusion Models for Enhancing Face Quality in Text-to-image Generation

論文の概要: Fine-tuning Diffusion Models for Enhancing Face Quality in Text-to-image Generation

arxiv url: http://arxiv.org/abs/2406.17100v1
Date: Mon, 24 Jun 2024 19:39:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 18:31:07.436808
Title: Fine-tuning Diffusion Models for Enhancing Face Quality in Text-to-image Generation
Title（参考訳）: テキスト・画像生成における顔品質向上のための微調整拡散モデル
Authors: Zhenyi Liao, Qingsong Xie, Chen Chen, Hannan Lu, Zhijie Deng,
Abstract要約: テキストから画像生成における低品質で非現実的な人間の顔は、最も顕著な問題の一つである。我々は、(良い、悪い)顔ペアのデータセットに基づいて、ImageRewardを微調整して、Face Score(FS)と呼ばれる新しいメトリクスを開発する。
参考スコア（独自算出の注目度）: 12.899451649090569
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models (DMs) have achieved significant success in generating imaginative images given textual descriptions. However, they are likely to fall short when it comes to real-life scenarios with intricate details.The low-quality, unrealistic human faces in text-to-image generation are one of the most prominent issues, hindering the wide application of DMs in practice. Targeting addressing such an issue, we first assess the face quality of generations from popular pre-trained DMs with the aid of human annotators and then evaluate the alignment between existing metrics such as ImageReward, Human Preference Score, Aesthetic Score Predictor, and Face Quality Assessment, with human judgments. Observing that existing metrics can be unsatisfactory for quantifying face quality, we develop a novel metric named Face Score (FS) by fine-tuning ImageReward on a dataset of (good, bad) face pairs cheaply crafted by an inpainting pipeline of DMs. Extensive studies reveal that FS enjoys a superior alignment with humans. On the other hand, FS opens up the door for refining DMs for better face generation. To achieve this, we incorporate a guidance loss on the denoising trajectories of the aforementioned face pairs for fine-tuning pre-trained DMs such as Stable Diffusion V1.5 and Realistic Vision V5.1. Intuitively, such a loss pushes the trajectory of bad faces toward that of good ones. Comprehensive experiments verify the efficacy of our approach for improving face quality while preserving general capability.
Abstract（参考訳）: 拡散モデル(DM)は、テキスト記述が与えられた想像的画像の生成において大きな成功を収めた。しかし、複雑な細部を持つ現実のシナリオでは不足する可能性があり、テキスト・ツー・画像生成における低品質で非現実的な人間の顔は最も顕著な問題の1つであり、実際にDMが広く適用されるのを妨げている。このような問題に対処するために、まず、人間のアノテータの助けを借りて、一般的な訓練済みDMから世代ごとの顔の質を評価し、その後、人間の判断により、ImageReward、Human Preference Score、Aesthetic Score Predictor、Face Quality Assessmentなどの既存の指標の整合性を評価する。既存のメトリクスが顔の質の定量化に不満足であることを確認するため、DMの塗装パイプラインによって安価に製作された(良い、悪い)顔ペアのデータセットに基づいて、ImageRewardを微調整することで、Face Score(FS)と呼ばれる新しいメトリクスを開発する。大規模な研究により、FSは人間に優越していることが明らかとなった。一方、FSはより優れた顔生成のためにDMを精製する扉を開く。これを実現するために、上述した顔対の認知軌跡の誘導損失を、安定拡散V1.5やリアルビジョンV5.1のような微調整済みのDMに組み込む。直感的には、そのような損失は悪い顔の軌道を良い顔の軌道に押し付ける。総合的な実験により,顔の質を向上させるためのアプローチの有効性が検証された。

関連論文リスト

OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-26T07:07:48Z)
Rank-based No-reference Quality Assessment for Face Swapping [88.53827937914038]
顔スワップ法における品質測定の基準は、操作された画像とソース画像の間のいくつかの距離に依存する。顔スワップ用に設計された新しい非参照画像品質評価法(NR-IQA)を提案する。
論文参考訳（メタデータ） (2024-06-04T01:36:29Z)
Generalized Face Liveness Detection via De-spoofing Face Generator [58.7043386978171]
以前のFace Anti-Spoofing (FAS) の作業は、目に見えない領域における一般化という課題に直面している。 De-spoofing Face Generator (DFG) によるモデル一般化を改善するために, 現実の顔を利用する Anomalous cue Guided FAS (AG-FAS) 方式を実行する。次に,Anomalous cue Guided FAS feature extract Network (AG-Net)を提案する。
論文参考訳（メタデータ） (2024-01-17T06:59:32Z)
Survey on Deep Face Restoration: From Non-blind to Blind and Beyond [79.1398990834247]
顔復元(FR)は、低品質 (LQ) の顔画像を高品質 (HQ) の顔画像に復元することを目的とした、画像復元の専門分野である。近年のディープラーニング技術の進歩はFR法に大きな進歩をもたらした。
論文参考訳（メタデータ） (2023-09-27T08:39:03Z)
Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文参考訳（メタデータ） (2023-09-07T09:11:49Z)
Differentially Private Latent Diffusion Models [4.10609794373612]
拡散モデル (DM) は高品質な画像を生成するために最も広く使われている生成モデルの一つである。本稿では、textitLatent Diffusion Models (LDMs) を採用することにより、差分プライバシ(DP)を用いたDMの現状を改善することを目的とする。提案手法により,DP保証付きテキストプロンプトに条件付き現実的な高次元画像を生成することができる。
論文参考訳（メタデータ） (2023-05-25T06:18:31Z)
FaceMAE: Privacy-Preserving Face Recognition via Masked Autoencoders [81.21440457805932]
顔のプライバシと認識性能を同時に考慮する新しいフレームワークFaceMAEを提案する。ランダムにマスクされた顔画像は、FaceMAEの再構築モジュールのトレーニングに使用される。また、いくつかの公開顔データセット上で十分なプライバシー保護顔認証を行う。
論文参考訳（メタデータ） (2022-05-23T07:19:42Z)
Towards Metrical Reconstruction of Human Faces [20.782425305421505]
顔の形状を学習するための教師付きトレーニングスキームについて論じる。大規模な2次元画像データセットで事前訓練した顔認識ネットワークを利用する。提案手法は,最先端の再建手法よりも大きなマージンで優れる。
論文参考訳（メタデータ） (2022-04-13T18:57:33Z)
AdaFace: Quality Adaptive Margin for Face Recognition [56.99208144386127]
本稿では、損失関数、すなわち画像品質における適応性の別の側面を紹介する。そこで本稿では,画像品質に基づいて異なる難易度を示す新たな損失関数を提案する。提案手法は,4つのデータセット上でのSoTA(State-of-the-art)による顔認識性能を向上させる。
論文参考訳（メタデータ） (2022-04-03T01:23:41Z)
FaceQgen: Semi-Supervised Deep Learning for Face Image Quality Assessment [19.928262020265965]
FaceQgenは、ジェネレーティブ・アドバイサル・ネットワークに基づく顔画像の非参照品質評価手法である。顔認識精度に関連するスカラー品質尺度を生成する。 SCfaceデータベースを使用して、スクラッチからトレーニングされる。
論文参考訳（メタデータ） (2022-01-03T17:22:38Z)
MagFace: A Universal Representation for Face Recognition and Quality Assessment [6.7044749347155035]
本論文では,与えられた顔の質を測ることができる普遍的特徴埋め込みを学習する損失のカテゴリであるMagFaceを提案する。新しい損失の下では、主題が認識される可能性が高い場合、単調に埋め込み機能の大きさが増加することが証明できます。さらに、MagFaceは、ハードサンプルを押しながら簡単にサンプルをクラスセンターに引っ張ることで、クラス内の機能を学ぶための適応メカニズムを導入している。
論文参考訳（メタデータ） (2021-03-11T11:58:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。