Fugu-MT 論文翻訳(概要): FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction

論文の概要: FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction

arxiv url: http://arxiv.org/abs/2312.03187v1
Date: Tue, 5 Dec 2023 23:33:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 16:26:42.546806
Title: FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction
Title（参考訳）: FERGI:自発表情反応によるテキスト・画像生成のためのユーザ嗜好の自動アノテーション
Authors: Shuangquan Feng, Junhua Ma, and Virginia R. de Sa
Abstract要約: 我々は、人間の嗜好フィードバックのデータを用いて、テキスト・ツー・イメージ生成モデルを微調整する。生成した画像に対する自然表情反応からユーザの嗜好を自動的に注釈する手法を開発し,テストする。
参考スコア（独自算出の注目度）: 2.3691158404002066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Researchers have proposed to use data of human preference feedback to fine-tune text-to-image generative models. However, the scalability of human feedback collection has been limited by its reliance on manual annotation. Therefore, we develop and test a method to automatically annotate user preferences from their spontaneous facial expression reaction to the generated images. We collect a dataset of Facial Expression Reaction to Generated Images (FERGI) and show that the activations of multiple facial action units (AUs) are highly correlated with user evaluations of the generated images. Specifically, AU4 (brow lowerer) is most consistently reflective of negative evaluations of the generated image. This can be useful in two ways. Firstly, we can automatically annotate user preferences between image pairs with substantial difference in AU4 responses to them with an accuracy significantly outperforming state-of-the-art scoring models. Secondly, directly integrating the AU4 responses with the scoring models improves their consistency with human preferences. Additionally, the AU4 response best reflects the user's evaluation of the image fidelity, making it complementary to the state-of-the-art scoring models, which are generally better at reflecting image-text alignment. Finally, this method of automatic annotation with facial expression analysis can be potentially generalized to other generation tasks. The code is available at https://github.com/ShuangquanFeng/FERGI, and the dataset is also available at the same link for research purposes.
Abstract（参考訳）: 研究者は、テキスト対画像生成モデルに人間の好みフィードバックのデータを使用することを提案した。しかしながら、手動アノテーションに依存することで、人間のフィードバック収集のスケーラビリティは制限されている。そこで本研究では,生成画像に対する自発的な表情反応からユーザの好みを自動アノテートする手法を開発した。本研究では,生成画像に対する表情反応(fergi)のデータセットを収集し,複数の顔行動単位(aus)の活性化が,生成画像のユーザ評価と高い相関性を示す。特に、AU4は、生成した画像の負の評価を最も一貫して反映している。これは2つの点で有用である。まず,AU4応答がかなり異なる画像ペア間のユーザの好みを自動でアノテートでき,精度は最先端のスコアリングモデルよりも大幅に向上する。次に、AU4レスポンスとスコアモデルを直接統合することで、人間の好みとの一貫性が向上する。さらに、AU4応答は、ユーザのイメージ忠実度の評価を最も反映しており、画像テキストのアライメントを反映するのが一般的である最先端のスコアリングモデルと相補的である。最後に、この表情解析による自動アノテーションの方法は、他の世代タスクに一般化することができる。コードはhttps://github.com/ShuangquanFeng/FERGIで公開されている。

関連論文リスト

More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models [53.98725993420285]
生成深度推定法は、事前訓練されたテキスト-画像拡散モデルに格納されたリッチな視覚的先行情報を利用する。本稿では,画像生成と深度推定の統一モデルであるMERGEを紹介する。
論文参考訳（メタデータ） (2025-10-27T17:44:56Z)
Chimera: Compositional Image Generation using Part-based Concepting [62.66883021706129]
我々は、異なるソース画像から特定部分を組み合わせることで、新しいオブジェクトを生成するパーソナライズされた画像生成モデルであるChimeraを紹介する。我々は,イメージコンディショニング機能を活用し,セマンティック・アイデンティティと空間的レイアウトの両方を強制する,部分条件誘導を用いたカスタム拡散事前モデルを訓練する。人間の評価と測定値から,キメラは他の基準線を14%上回り,構成精度は21%,視力は21%向上した。
論文参考訳（メタデータ） (2025-10-20T20:20:47Z)
Human Learning by Model Feedback: The Dynamics of Iterative Prompting with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文参考訳（メタデータ） (2023-11-20T19:28:52Z)
SelfEval: Leveraging the discriminative nature of generative models for evaluation [35.7242199928684]
そこで本研究では,テキスト・画像生成モデルを「逆」にすることで,テキスト・画像認識能力を評価できることを示す。提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
論文参考訳（メタデータ） (2023-11-17T18:58:16Z)
ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。 Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文参考訳（メタデータ） (2023-09-11T15:54:30Z)
Face0: Instantaneously Conditioning a Text-to-Image Model on a Face [3.5150821092068383]
顔にテキスト・ツー・イメージ生成モデルを瞬時に条件付ける新しい方法であるFace0を提案する。アノテーション付き画像のデータセットを包含した顔の埋め込みで拡張し、拡張データセット上で画像生成モデルを訓練する。提案手法は, 極めてシンプルで, 極めて高速であり, 基礎となるモデルに新たな機能を持たせる。
論文参考訳（メタデータ） (2023-06-11T09:52:03Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Semantic-Aware Generation for Self-Supervised Visual Representation Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。 SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文参考訳（メタデータ） (2021-11-25T16:46:13Z)
Scene Graph Generation for Better Image Captioning? [48.411957217304]
検出されたオブジェクトと自動生成された視覚的関係を利用して、自然言語で画像を記述するモデルを提案する。我々は、個々のオブジェクトとそれらの間の視覚的関係を識別することにより、生画像画素からシーングラフを生成する。このシーングラフは、最後のキャプションを生成するグラフからテキストへのモデルへの入力として機能します。
論文参考訳（メタデータ） (2021-09-23T14:35:11Z)
Deep Image Synthesis from Intuitive User Input: A Review and Perspectives [23.01321275304037]
ユーザは、テキスト、スケッチ、ストローク、グラフ、レイアウトなどの直感的な非画像入力を提供することが望ましい。 GAN(Generative Adversarial Network)やVAE(VAE)、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
論文参考訳（メタデータ） (2021-07-09T06:31:47Z)
Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。 StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文参考訳（メタデータ） (2021-04-29T17:58:35Z)
MorphGAN: One-Shot Face Synthesis GAN for Detecting Recognition Bias [13.162012586770576]
本論文では, 頭部ポーズと表情調節を, 既視者の画像に適用するシミュレータについて述べる。顔の小さなデータセットを新しいポーズと表現で拡張することで、増強やデータの不足に応じて、認識性能を最大9%向上することを示す。
論文参考訳（メタデータ） (2020-12-09T18:43:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。