論文の概要: FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction
- arxiv url: http://arxiv.org/abs/2312.03187v3
- Date: Wed, 28 Aug 2024 10:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 21:19:05.234370
- Title: FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction
- Title(参考訳): FERGI:自発表情反応によるテキスト・画像生成のためのユーザ嗜好の自動アノテーション
- Authors: Shuangquan Feng, Junhua Ma, Virginia R. de Sa,
- Abstract要約: 生成した画像に対する自然表情反応からユーザの嗜好を自動的に評価する手法を開発し,テストする。
生成画像に対する表情反応(FERGI)のデータセットを収集し,複数の顔行動単位(AU)の活性化が生成画像のユーザ評価と高い相関性を示す。
我々は,AU推定モデルから入力を受け取るFAU-Net(Facial Action Units Neural Network)を開発し,テキスト・画像生成のためのユーザの好みを自動的に評価する。
- 参考スコア(独自算出の注目度): 2.3691158404002066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers have proposed to use data of human preference feedback to fine-tune text-to-image generative models. However, the scalability of human feedback collection has been limited by its reliance on manual annotation. Therefore, we develop and test a method to automatically score user preferences from their spontaneous facial expression reaction to the generated images. We collect a dataset of Facial Expression Reaction to Generated Images (FERGI) and show that the activations of multiple facial action units (AUs) are highly correlated with user evaluations of the generated images. We develop an FAU-Net (Facial Action Units Neural Network), which receives inputs from an AU estimation model, to automatically score user preferences for text-to-image generation based on their facial expression reactions, which is complementary to the pre-trained scoring models based on the input text prompts and generated images. Integrating our FAU-Net valence score with the pre-trained scoring models improves their consistency with human preferences. This method of automatic annotation with facial expression analysis can be potentially generalized to other generation tasks. The code is available at https://github.com/ShuangquanFeng/FERGI, and the dataset is also available at the same link for research purposes.
- Abstract(参考訳): 研究者は、人間の嗜好フィードバックのデータを使って、微調整されたテキストから画像への生成モデルを提案する。
しかし、人間のフィードバック収集のスケーラビリティは手動のアノテーションに依存しているため制限されている。
そこで本研究では,生成した画像に対する自然表情反応からユーザの嗜好を自動的に評価する手法を開発し,検証する。
生成画像に対する表情反応(FERGI)のデータセットを収集し,複数の顔行動単位(AU)の活性化が生成画像のユーザ評価と高い相関性を示す。
AU推定モデルから入力を受け取るFAU-Net(Facial Action Units Neural Network)を開発し、入力されたテキストプロンプトと生成された画像に基づいて事前学習された評価モデルと相補的な表情反応に基づいて、テキストから画像生成へのユーザの嗜好を自動的にスコアする。
FAU-Net valenceスコアと事前学習したスコアモデルを統合することで、人間の好みとの一貫性が向上する。
この表情解析による自動アノテーションの方法は、他の世代タスクに一般化することができる。
コードはhttps://github.com/ShuangquanFeng/FERGIで公開されている。
関連論文リスト
- Human Learning by Model Feedback: The Dynamics of Iterative Prompting
with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。
これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。
ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文 参考訳(メタデータ) (2023-11-20T19:28:52Z) - SelfEval: Leveraging the discriminative nature of generative models for
evaluation [35.7242199928684]
そこで本研究では,テキスト・画像生成モデルを「逆」にすることで,テキスト・画像認識能力を評価できることを示す。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
論文 参考訳(メタデータ) (2023-11-17T18:58:16Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Face0: Instantaneously Conditioning a Text-to-Image Model on a Face [3.5150821092068383]
顔にテキスト・ツー・イメージ生成モデルを瞬時に条件付ける新しい方法であるFace0を提案する。
アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。
提案手法は, 極めてシンプルで, 極めて高速であり, 基礎となるモデルに新たな機能を持たせる。
論文 参考訳(メタデータ) (2023-06-11T09:52:03Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Scene Graph Generation for Better Image Captioning? [48.411957217304]
検出されたオブジェクトと自動生成された視覚的関係を利用して、自然言語で画像を記述するモデルを提案する。
我々は、個々のオブジェクトとそれらの間の視覚的関係を識別することにより、生画像画素からシーングラフを生成する。
このシーングラフは、最後のキャプションを生成するグラフからテキストへのモデルへの入力として機能します。
論文 参考訳(メタデータ) (2021-09-23T14:35:11Z) - Deep Image Synthesis from Intuitive User Input: A Review and
Perspectives [23.01321275304037]
ユーザは、テキスト、スケッチ、ストローク、グラフ、レイアウトなどの直感的な非画像入力を提供することが望ましい。
GAN(Generative Adversarial Network)やVAE(VAE)、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。
本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
論文 参考訳(メタデータ) (2021-07-09T06:31:47Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - MorphGAN: One-Shot Face Synthesis GAN for Detecting Recognition Bias [13.162012586770576]
本論文では, 頭部ポーズと表情調節を, 既視者の画像に適用するシミュレータについて述べる。
顔の小さなデータセットを新しいポーズと表現で拡張することで、増強やデータの不足に応じて、認識性能を最大9%向上することを示す。
論文 参考訳(メタデータ) (2020-12-09T18:43:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。