論文の概要: TIAM -- A Metric for Evaluating Alignment in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2307.05134v2
- Date: Tue, 2 Jan 2024 21:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:57:07.915108
- Title: TIAM -- A Metric for Evaluating Alignment in Text-to-Image Generation
- Title(参考訳): TIAM -- テキスト・画像生成におけるアライメント評価基準
- Authors: Paul Grimal, Herv\'e Le Borgne, Olivier Ferret, Julien Tourille
- Abstract要約: 本稿では,プロンプトテンプレートに基づく新しいメトリクスを提案し,プロンプトで指定された内容と対応する生成された画像とのアライメントについて検討する。
我々のアプローチで得られた別の興味深い結果は、画像の品質が、画像のシードとして使われる雑音によって大きく変化することである。
- 参考スコア(独自算出の注目度): 2.6890293832784566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The progress in the generation of synthetic images has made it crucial to
assess their quality. While several metrics have been proposed to assess the
rendering of images, it is crucial for Text-to-Image (T2I) models, which
generate images based on a prompt, to consider additional aspects such as to
which extent the generated image matches the important content of the prompt.
Moreover, although the generated images usually result from a random starting
point, the influence of this one is generally not considered. In this article,
we propose a new metric based on prompt templates to study the alignment
between the content specified in the prompt and the corresponding generated
images. It allows us to better characterize the alignment in terms of the type
of the specified objects, their number, and their color. We conducted a study
on several recent T2I models about various aspects. An additional interesting
result we obtained with our approach is that image quality can vary drastically
depending on the noise used as a seed for the images. We also quantify the
influence of the number of concepts in the prompt, their order as well as their
(color) attributes. Finally, our method allows us to identify some seeds that
produce better images than others, opening novel directions of research on this
understudied topic.
- Abstract(参考訳): 合成画像の生成の進歩は,その品質を評価する上で重要である。
画像のレンダリングを評価するためにいくつかの指標が提案されているが、プロンプトに基づいて画像を生成するtext-to-image (t2i)モデルでは、生成された画像がプロンプトの重要なコンテンツとどの程度一致するかといった追加的な側面を考慮することが重要である。
さらに、生成された画像は通常ランダムな開始点から生じるが、この画像の影響は一般に考慮されない。
本稿では,プロンプトで指定されたコンテンツと対応する画像のアラインメントを研究するために,プロンプトテンプレートに基づく新しい指標を提案する。
これにより、指定されたオブジェクトの型、その数、色の観点から、アライメントをよりよく特徴づけることができます。
様々な側面に関する最近のT2Iモデルについて検討した。
また,提案手法で得られた興味深い結果として,画像のシードとして使用するノイズによって画質が大きく変化することがわかった。
また、プロンプトにおける概念の数、それらの順序、およびそれらの(色)属性の影響を定量化する。
最後に,本手法により,他の種よりも優れた画像を生成する種子を同定し,その研究の新たな方向性を明らかにする。
関連論文リスト
- A Survey on Quality Metrics for Text-to-Image Models [9.753473063305503]
本稿では,そのニュアンスに対処する既存のテキスト・ツー・イメージの品質指標の概要と,人間の嗜好に合わせた調整の必要性について述べる。
本稿では,これらの指標を分類するための新しい分類法を提案する。
我々は,テキスト・ツー・イメージ評価を行う実践者のためのガイドラインを導出し,評価メカニズムのオープンな課題と,現在の指標の限界について論じる。
論文 参考訳(メタデータ) (2024-03-18T14:24:20Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - Test your samples jointly: Pseudo-reference for image quality evaluation [3.2634122554914]
品質評価の精度を向上させるため,同じ内容の異なる画像を共同でモデル化することを提案する。
実験の結果,本手法では,同一の新たなコンテンツを示す複数の画像の特徴を組み合わせることができ,評価精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-04-07T17:59:27Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Words as Art Materials: Generating Paintings with Sequential GANs [8.249180979158815]
大規模な分散データセット上での芸術画像の生成について検討する。
このデータセットには、形状、色、内容など、バリエーションのあるイメージが含まれている。
本稿では,逐次生成適応型ネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-07-08T19:17:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。