Fugu-MT 論文翻訳(概要): GRADE: Quantifying Sample Diversity in Text-to-Image Models

論文の概要: GRADE: Quantifying Sample Diversity in Text-to-Image Models

arxiv url: http://arxiv.org/abs/2410.22592v1
Date: Tue, 29 Oct 2024 23:10:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.133677
Title: GRADE: Quantifying Sample Diversity in Text-to-Image Models
Title（参考訳）: GRADE:テキスト・画像モデルにおけるサンプルの多様性の定量化
Authors: Royi Rassin, Aviv Slobodkin, Shauli Ravfogel, Yanai Elazar, Yoav Goldberg,
Abstract要約: 本稿では,サンプルの多様性を定量化する手法であるGRADE: Granular Attribute Diversity Evaluationを提案する。 400のコンセプト属性ペアを用いて12のT2Iモデルの全体的な多様性を測定し、すべてのモデルが限定的な変動を示すことを示した。我々の研究は、サンプルの多様性を測定するための現代的で意味論的に駆動されたアプローチを提案し、T2Iモデルによる出力の驚くべき均一性を強調している。
参考スコア（独自算出の注目度）: 66.12068246962762
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image (T2I) models are remarkable at generating realistic images based on textual descriptions. However, textual prompts are inherently underspecified: they do not specify all possible attributes of the required image. This raises two key questions: Do T2I models generate diverse outputs on underspecified prompts? How can we automatically measure diversity? We propose GRADE: Granular Attribute Diversity Evaluation, an automatic method for quantifying sample diversity. GRADE leverages the world knowledge embedded in large language models and visual question-answering systems to identify relevant concept-specific axes of diversity (e.g., ``shape'' and ``color'' for the concept ``cookie''). It then estimates frequency distributions of concepts and their attributes and quantifies diversity using (normalized) entropy. GRADE achieves over 90% human agreement while exhibiting weak correlation to commonly used diversity metrics. We use GRADE to measure the overall diversity of 12 T2I models using 400 concept-attribute pairs, revealing that all models display limited variation. Further, we find that these models often exhibit default behaviors, a phenomenon where the model consistently generates concepts with the same attributes (e.g., 98% of the cookies are round). Finally, we demonstrate that a key reason for low diversity is due to underspecified captions in training data. Our work proposes a modern, semantically-driven approach to measure sample diversity and highlights the stunning homogeneity in outputs by T2I models.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)モデルは、テキスト記述に基づいて現実的な画像を生成するのに顕著である。しかし、テキストプロンプトは本質的に不明確であり、必要な画像のすべての属性を指定していない。 T2Iモデルは、未特定のプロンプトに対して多様な出力を生成するか? どのようにして多様性を自動的に測定できるのか? 本稿では,サンプルの多様性を定量化する手法であるGRADE: Granular Attribute Diversity Evaluationを提案する。 GRADEは、大きな言語モデルや視覚的質問応答システムに埋め込まれた世界的知識を活用して、関連する概念固有の多様性の軸(例えば、'cookie' の概念に ``shape'' と ` ``color'' を識別する。その後、概念とその属性の周波数分布を推定し、(正規化)エントロピーを用いて多様性を定量化する。 GRADEは、一般的に使用されている多様性指標と弱い相関を示しながら、90%以上の人的合意を達成する。 GRADEを用いて、400のコンセプト属性ペアを使用して12のT2Iモデルの全体的な多様性を測定し、すべてのモデルが限られたバリエーションを示すことを示した。さらに,これらのモデルが既定動作を示すことも多く,同じ特性を持つ概念を連続的に生成する(クッキーの98%が丸い)現象も見いだされる。最後に、低多様性の鍵となる理由は、トレーニングデータに不特定なキャプションがあることを実証する。我々の研究は、サンプルの多様性を測定するための現代的で意味論的に駆動されたアプローチを提案し、T2Iモデルによる出力の驚くべき均一性を強調している。

関連論文リスト

Image Generation Diversity Issues and How to Tame Them [8.858030256056095]
生成メソッドは、実際のデータとほとんど区別できない出力を生成するが、多くの場合、データの完全なキャプチャに失敗する。本稿では、生成モデルにおける現在の多様性の欠如と、これを測定するための共通指標の欠如に留意する。画像検索問題として多様性をフレーミングすることでこれを実現し、合成データを用いて実画像の検索回数をクエリとして測定する。
論文参考訳（メタデータ） (2024-11-25T08:00:21Z)
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。 Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文参考訳（メタデータ） (2024-05-31T17:41:11Z)
Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation [0.40792653193642503]
拡散モデルにおける画像生成の再現性、あるいは一貫性の解釈可能な定量的スコアの必要性を同定する。セマンティック・コンセンサス・スコアとしてペア平均CLIPスコアを用いるセマンティック・アプローチを提案する。
論文参考訳（メタデータ） (2024-04-12T20:16:03Z)
DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文参考訳（メタデータ） (2023-12-21T12:11:00Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
Diversity and Diffusion: Observations on Synthetic Image Distributions with Stable Diffusion [6.491645162078057]
Text-to-image (TTI)システムにより、単純なテキストプロンプトでリアルな画像を作成することができる。これまでに行われたすべての実験において、合成画像のみで訓練された分類器は推論時に性能が良くない。この課題に対するTTIシステムの有用性を制限する4つの問題:曖昧さ、プロンプトへの順守、多様性の欠如、基礎となる概念を表現できないこと。
論文参考訳（メタデータ） (2023-10-31T18:05:15Z)
Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation [0.0]
画像の多様性をジェンダーや民族を超えて向上させる方法であるDiverse Diffusionを紹介した。私たちのアプローチは、より包括的で代表的なAI生成アートの作成に寄与します。
論文参考訳（メタデータ） (2023-10-19T08:48:23Z)
Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文参考訳（メタデータ） (2023-02-07T20:42:28Z)
Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。このような違いを推定する自動手法を提案する。
論文参考訳（メタデータ） (2023-02-07T18:52:22Z)
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文参考訳（メタデータ） (2022-02-16T22:26:47Z)
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文参考訳（メタデータ） (2022-02-08T18:36:52Z)
Random Network Distillation as a Diversity Metric for Both Image and Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文参考訳（メタデータ） (2020-10-13T22:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。