Fugu-MT 論文翻訳(概要): Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2

論文の概要: Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2

arxiv url: http://arxiv.org/abs/2210.00586v1
Date: Sun, 2 Oct 2022 17:53:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 15:33:09.709347
Title: Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2
Title（参考訳）: 野生における発生顔:安定拡散, ミッドジャーニーおよびDALL-E 2の定量的比較
Authors: Ali Borji
Abstract要約: 本研究では, 安定拡散, ミッドジャーニー, DALL-E2 の3つの人気システムを比較し, 野生で光現実的な顔を生成する能力について比較した。 FIDスコアによると、安定拡散は他のシステムよりも優れた顔を生成する。また,GFWと呼ばれる野生の顔のデータセットも導入し,総顔数は15,076面である。
参考スコア（独自算出の注目度）: 47.64219291655723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The field of image synthesis has made great strides in the last couple of years. Recent models are capable of generating images with astonishing quality. Fine-grained evaluation of these models on some interesting categories such as faces is still missing. Here, we conduct a quantitative comparison of three popular systems including Stable Diffusion, Midjourney, and DALL-E 2 in their ability to generate photorealistic faces in the wild. We find that Stable Diffusion generates better faces than the other systems, according to the FID score. We also introduce a dataset of generated faces in the wild dubbed GFW, including a total of 15,076 faces. Furthermore, we hope that our study spurs follow-up research in assessing the generative models and improving them. Data and code are available at data and code, respectively.
Abstract（参考訳）: 画像合成の分野では、ここ数年で大きな進歩を遂げています。最近のモデルは驚くべき品質で画像を生成することができる。顔などの興味深いカテゴリにおけるこれらのモデルのきめ細かい評価はいまだに欠けている。ここでは, 安定拡散, ミッドジャーニー, DALL-E2 の3つの人気システムを, 野生の光現実的顔を生成する能力について定量的に比較する。 FIDスコアによると、安定拡散は他のシステムよりも優れた顔を生成する。また,GFWと呼ばれる野生の顔のデータセットも導入し,総顔数は15,076面である。さらに,本研究が生成モデルの評価と改善のフォローアップ研究を促進することを願っている。データとコードは、それぞれデータとコードで利用可能である。

関連論文リスト

Evaluating Latent Generative Paradigms for High-Fidelity 3D Shape Completion from a Single Depth Image [8.280737466900135]
拡散確率モデルと自己回帰因果変換の2つの有望な生成モデルを比較した。連続潜伏剤を用いた拡散モデルは判別モデルと自己回帰的アプローチの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-11-14T08:46:11Z)
Towards Evaluating Robustness of Prompt Adherence in Text to Image Models [0.0]
本稿では,テキスト・ツー・イメージ・モデルのための総合的な評価枠組みを確立することを目的とする。我々は,入力テキストプロンプトの変動要因に応じた画像を生成する際に,これらのモデルのロバスト性を評価することを目的とした,新しいデータセットを構築した。その結果、これらのモデルでは、単純な幾何学的形状と位置の2つの要素だけで、単純なバイナリ画像を作成するのに苦労していることが判明した。
論文参考訳（メタデータ） (2025-07-09T18:40:17Z)
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文参考訳（メタデータ） (2025-03-21T13:58:49Z)
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。 FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-01-23T18:58:33Z)
OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-26T07:07:48Z)
TCDiff: Triple Condition Diffusion Model with 3D Constraints for Stylizing Synthetic Faces [1.7535229154829601]
新しいデータセットの1k、2k、5kクラスを用いた顔認識実験は、実顔ベンチマークで最先端の合成データセットをトレーニングする。
論文参考訳（メタデータ） (2024-09-05T14:59:41Z)
Comparative Analysis of Generative Models: Enhancing Image Synthesis with VAEs, GANs, and Stable Diffusion [0.0]
本稿では,変分オートエンコーダ(VAE),GAN(Generative Adversarial Networks),安定拡散(Stable Diffusion)の3つの主要な生成モデルについて検討する。
論文参考訳（メタデータ） (2024-08-16T13:50:50Z)
Diffusion Models are Efficient Data Generators for Human Mesh Recovery [55.37787289869703]
生成モデルにより生成された合成データはCGレンダリングデータと相補的であることを示す。我々はHumanWildと呼ばれる最近の拡散モデルに基づく効率的なデータ生成パイプラインを提案する。われわれの研究は、人間の3Dリカバリを現場に拡大するための道を開くかもしれない。
論文参考訳（メタデータ） (2024-03-17T06:31:16Z)
GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文参考訳（メタデータ） (2024-02-03T03:13:50Z)
Stable Diffusion for Data Augmentation in COCO and Weed Datasets [5.81198182644659]
本研究は, 安定拡散モデルの有効性を評価するために, 7つの共通カテゴリーと3つの広く分布する雑草種を利用した。安定拡散に基づく3つの手法(画像から画像への変換,ドリームブース,コントロールネット)を,焦点の異なる画像生成に利用した。そして、これらの合成画像に基づいて分類・検出タスクを行い、その性能を原画像で訓練されたモデルと比較した。
論文参考訳（メタデータ） (2023-12-07T02:23:32Z)
DCFace: Synthetic Face Generation with Dual Condition Diffusion Model [18.662943303044315]
本稿では拡散モデルに基づくDCFace(Dual Condition Face Generator)を提案する。われわれの新しいPatch-wiseスタイル抽出器と時間ステップ依存ID損失により、DCFaceは、同じ対象の顔画像を、正確に制御された異なるスタイルで一貫して生成することができる。
論文参考訳（メタデータ） (2023-04-14T11:31:49Z)
NeRFInvertor: High Fidelity NeRF-GAN Inversion for Single-shot Real Image Animation [66.0838349951456]
Nerfベースの生成モデルは、一貫した3次元幾何で高品質な画像を生成する能力を示している。本研究では,このNeRF-GANモデルを外科的に微調整し,実物体の高忠実度アニメーションを単一画像のみで実現するための普遍的手法を提案する。
論文参考訳（メタデータ） (2022-11-30T18:36:45Z)
Generating 2D and 3D Master Faces for Dictionary Attacks with a Network-Assisted Latent Space Evolution [68.8204255655161]
マスターフェイス(英: master face)とは、人口の比率の高い顔認証をパスする顔画像である。 2次元および3次元の顔認証モデルに対して,これらの顔の最適化を行う。 3Dでは,2次元スタイルGAN2ジェネレータを用いて顔を生成し,深部3次元顔再構成ネットワークを用いて3次元構造を予測する。
論文参考訳（メタデータ） (2022-11-25T09:15:38Z)
Towards Fine-grained Image Classification with Generative Adversarial Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文参考訳（メタデータ） (2021-08-28T06:32:42Z)
OSTeC: One-Shot Texture Completion [86.23018402732748]
ワンショット3D顔テクスチャ補完のための教師なしアプローチを提案する。提案手法では,2次元フェースジェネレータで回転画像を再構成することにより,入力画像を3次元で回転させ,見えない領域を埋め込む。完成したテクスチャーをジェネレーターに投影することで、ターゲットイメージを先取りします。
論文参考訳（メタデータ） (2020-12-30T23:53:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。