論文の概要: GRADE: Quantifying Sample Diversity in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2410.22592v2
- Date: Tue, 11 Mar 2025 07:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:16:55.017733
- Title: GRADE: Quantifying Sample Diversity in Text-to-Image Models
- Title(参考訳): GRADE:テキスト・画像モデルにおけるサンプルの多様性の定量化
- Authors: Royi Rassin, Aviv Slobodkin, Shauli Ravfogel, Yanai Elazar, Yoav Goldberg,
- Abstract要約: GRADEはテキスト・画像モデルにおけるサンプルの多様性を定量化する手法である。
GRADEを用いて、合計720K画像上の12種類のモデルの多様性を測定する。
- 参考スコア(独自算出の注目度): 66.12068246962762
- License:
- Abstract: We introduce GRADE, an automatic method for quantifying sample diversity in text-to-image models. Our method leverages the world knowledge embedded in large language models and visual question-answering systems to identify relevant concept-specific axes of diversity (e.g., ``shape'' for the concept ``cookie''). It then estimates frequency distributions of concepts and their attributes and quantifies diversity using entropy. We use GRADE to measure the diversity of 12 models over a total of 720K images, revealing that all models display limited variation, with clear deterioration in stronger models. Further, we find that models often exhibit default behaviors, a phenomenon where a model consistently generates concepts with the same attributes (e.g., 98% of the cookies are round). Lastly, we show that a key reason for low diversity is underspecified captions in training data. Our work proposes an automatic, semantically-driven approach to measure sample diversity and highlights the stunning homogeneity in text-to-image models.
- Abstract(参考訳): 本稿では,テキスト・ツー・イメージ・モデルにおけるサンプルの多様性を定量化するGRADEを紹介する。
提案手法は,大言語モデルや視覚的質問応答システムに埋め込まれた世界的知識を利用して,多様性の概念固有の軸(例えば 'cookie'' の概念の ``shape'' )を識別する。
その後、概念とその属性の周波数分布を推定し、エントロピーを用いて多様性を定量化する。
GRADEを用いて、合計720K画像上の12種類のモデルの多様性を測定し、全てのモデルが限定的な変動を示し、より強いモデルでは明らかに劣化していることを示した。
さらに,モデルが既定動作を示すことも多く,モデルが同じ属性を持つ概念を一貫して生成する現象(クッキーの98%は丸い)も見られる。
最後に,低多様性の鍵となる要因として,トレーニングデータのキャプション不足があげられる。
本研究は,サンプルの多様性を自動的・意味論的に測定する手法を提案し,テキスト・画像モデルにおける驚くべき均一性を強調した。
関連論文リスト
- Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting [9.116108409344177]
ソースフリーのクロスドメイン数ショット学習タスクは、最小限のサンプルを使用して、トレーニング済みのモデルをターゲットのドメインに転送することを目的としている。
本稿では2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-01T11:00:38Z) - Image Generation Diversity Issues and How to Tame Them [8.858030256056095]
生成メソッドは、実際のデータとほとんど区別できない出力を生成するが、多くの場合、データの完全なキャプチャに失敗する。
本稿では、生成モデルにおける現在の多様性の欠如と、これを測定するための共通指標の欠如に留意する。
画像検索問題として多様性をフレーミングすることでこれを実現し、合成データを用いて実画像の検索回数をクエリとして測定する。
論文 参考訳(メタデータ) (2024-11-25T08:00:21Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation [0.0]
画像の多様性をジェンダーや民族を超えて向上させる方法であるDiverse Diffusionを紹介した。
私たちのアプローチは、より包括的で代表的なAI生成アートの作成に寄与します。
論文 参考訳(メタデータ) (2023-10-19T08:48:23Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。