論文の概要: FERGI: Automatic Annotation of User Preferences for Text-to-Image
Generation from Spontaneous Facial Expression Reaction
- arxiv url: http://arxiv.org/abs/2312.03187v1
- Date: Tue, 5 Dec 2023 23:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:26:42.546806
- Title: FERGI: Automatic Annotation of User Preferences for Text-to-Image
Generation from Spontaneous Facial Expression Reaction
- Title(参考訳): FERGI:自発表情反応によるテキスト・画像生成のためのユーザ嗜好の自動アノテーション
- Authors: Shuangquan Feng, Junhua Ma, and Virginia R. de Sa
- Abstract要約: 我々は、人間の嗜好フィードバックのデータを用いて、テキスト・ツー・イメージ生成モデルを微調整する。
生成した画像に対する自然表情反応からユーザの嗜好を自動的に注釈する手法を開発し,テストする。
- 参考スコア(独自算出の注目度): 2.3691158404002066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers have proposed to use data of human preference feedback to
fine-tune text-to-image generative models. However, the scalability of human
feedback collection has been limited by its reliance on manual annotation.
Therefore, we develop and test a method to automatically annotate user
preferences from their spontaneous facial expression reaction to the generated
images. We collect a dataset of Facial Expression Reaction to Generated Images
(FERGI) and show that the activations of multiple facial action units (AUs) are
highly correlated with user evaluations of the generated images. Specifically,
AU4 (brow lowerer) is most consistently reflective of negative evaluations of
the generated image. This can be useful in two ways. Firstly, we can
automatically annotate user preferences between image pairs with substantial
difference in AU4 responses to them with an accuracy significantly
outperforming state-of-the-art scoring models. Secondly, directly integrating
the AU4 responses with the scoring models improves their consistency with human
preferences. Additionally, the AU4 response best reflects the user's evaluation
of the image fidelity, making it complementary to the state-of-the-art scoring
models, which are generally better at reflecting image-text alignment. Finally,
this method of automatic annotation with facial expression analysis can be
potentially generalized to other generation tasks. The code is available at
https://github.com/ShuangquanFeng/FERGI, and the dataset is also available at
the same link for research purposes.
- Abstract(参考訳): 研究者は、テキスト対画像生成モデルに人間の好みフィードバックのデータを使用することを提案した。
しかしながら、手動アノテーションに依存することで、人間のフィードバック収集のスケーラビリティは制限されている。
そこで本研究では,生成画像に対する自発的な表情反応からユーザの好みを自動アノテートする手法を開発した。
本研究では,生成画像に対する表情反応(fergi)のデータセットを収集し,複数の顔行動単位(aus)の活性化が,生成画像のユーザ評価と高い相関性を示す。
特に、AU4は、生成した画像の負の評価を最も一貫して反映している。
これは2つの点で有用である。
まず,AU4応答がかなり異なる画像ペア間のユーザの好みを自動でアノテートでき,精度は最先端のスコアリングモデルよりも大幅に向上する。
次に、AU4レスポンスとスコアモデルを直接統合することで、人間の好みとの一貫性が向上する。
さらに、AU4応答は、ユーザのイメージ忠実度の評価を最も反映しており、画像テキストのアライメントを反映するのが一般的である最先端のスコアリングモデルと相補的である。
最後に、この表情解析による自動アノテーションの方法は、他の世代タスクに一般化することができる。
コードはhttps://github.com/ShuangquanFeng/FERGIで公開されている。
関連論文リスト
- Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability [21.355484227864466]
生成した画像の表現空間と入力空間の関係について検討する。
異常スコア(AS)と呼ばれる画像生成モデルを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-17T07:33:06Z) - Human Learning by Model Feedback: The Dynamics of Iterative Prompting
with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。
これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。
ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文 参考訳(メタデータ) (2023-11-20T19:28:52Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - ImageReward: Learning and Evaluating Human Preferences for Text-to-Image
Generation [30.977582244445742]
ImageRewardは、人間の嗜好報酬モデルである。
そのトレーニングは、評価やランキングを含む、系統的なアノテーションパイプラインに基づいています。
人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れています。
論文 参考訳(メタデータ) (2023-04-12T16:58:13Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Impact of Feedback Type on Explanatory Interactive Learning [4.039245878626345]
Explanatory Interactive Learning (XIL)は、Human-in-the-Loop(HITL)ベースの対話型学習シナリオを実装するために、視覚モデルの説明に関するユーザフィードバックを収集する。
画像分類タスクにおける2つの異なるユーザフィードバックタイプの有効性を比較した。
本研究では,モデルに有効な画像特徴にフォーカスするよう指示するユーザフィードバックよりも優れた分類と説明の精度で,モデルが有意な結果を見出すような突発的な画像特徴の識別と注釈を示す。
論文 参考訳(メタデータ) (2022-09-26T07:33:54Z) - Improving Users' Mental Model with Attention-directed Counterfactual
Edits [6.380697901046864]
制御された対実画像探索例の表示は、ランダムな例を示すよりも、ユーザのメンタルモデルを改善するのに効果的であることを示す。
我々は、GAN(Generative Adversarial Network)の最近の進歩を利用して、画像に対する特定の関心領域を削除・印加することで、対物画像を生成する。
本研究は, 被験者の心理モデルを用いて, 実験対象の画像上でのモデルの性能予測を行うことにより, 被験者の心理モデルをテストする。
論文 参考訳(メタデータ) (2021-10-13T16:57:24Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。