論文の概要: The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models
- arxiv url: http://arxiv.org/abs/2510.19557v1
- Date: Wed, 22 Oct 2025 13:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.821547
- Title: The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models
- Title(参考訳): T2Iモデルにおけるプロンプト複雑度、品質、多様性、一貫性の複雑なダンス
- Authors: Xiaofeng Zhang, Aaron Courville, Michal Drozdzal, Adriana Romero-Soriano,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、無限の合成データを作成する大きな可能性を提供します。
これまでの研究は、T2Iモデルの3つの重要なデシダータ(品質、多様性、一貫性)における合成データの有用性を評価してきた。
実データと合成データの有用性を比較するための新しい評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.156662936278751
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image (T2I) models offer great potential for creating virtually limitless synthetic data, a valuable resource compared to fixed and finite real datasets. Previous works evaluate the utility of synthetic data from T2I models on three key desiderata: quality, diversity, and consistency. While prompt engineering is the primary means of interacting with T2I models, the systematic impact of prompt complexity on these critical utility axes remains underexplored. In this paper, we first conduct synthetic experiments to motivate the difficulty of generalization w.r.t. prompt complexity and explain the observed difficulty with theoretical derivations. Then, we introduce a new evaluation framework that can compare the utility of real data and synthetic data, and present a comprehensive analysis of how prompt complexity influences the utility of synthetic data generated by commonly used T2I models. We conduct our study across diverse datasets, including CC12M, ImageNet-1k, and DCI, and evaluate different inference-time intervention methods. Our synthetic experiments show that generalizing to more general conditions is harder than the other way round, since the former needs an estimated likelihood that is not learned by diffusion models. Our large-scale empirical experiments reveal that increasing prompt complexity results in lower conditional diversity and prompt consistency, while reducing the synthetic-to-real distribution shift, which aligns with the synthetic experiments. Moreover, current inference-time interventions can augment the diversity of the generations at the expense of moving outside the support of real data. Among those interventions, prompt expansion, by deliberately using a pre-trained language model as a likelihood estimator, consistently achieves the highest performance in both image diversity and aesthetics, even higher than that of real data.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは、固定された実データや有限個の実データに対して貴重なリソースである、事実上の制限のない合成データを作成する大きな可能性を提供します。
これまでの研究は、T2Iモデルの3つの重要なデシダータ(品質、多様性、一貫性)における合成データの有用性を評価してきた。
プロンプトエンジニアリングはT2Iモデルと相互作用する主要な手段であるが、これらの重要なユーティリティー軸に対する急激な複雑さの体系的な影響は未解明のままである。
本稿では、まず、一般化の難しさを動機付けるための合成実験を行い、その難しさを理論的導出で説明する。
そこで,本研究では,実データと合成データの有用性を比較可能な新しい評価フレームワークを提案し,その複雑さが一般的なT2Iモデルによって生成される合成データの有用性にどのように影響するかを包括的に分析する。
我々は,CC12M,ImageNet-1k,DCIなど,さまざまなデータセットを対象とした調査を行い,異なる推論時間介入手法の評価を行った。
より一般的な条件への一般化は、拡散モデルでは学ばない推定確率を必要とするため、他の方法よりも難しいことが、我々の合成実験によって示されている。
大規模実験により, 急激な複雑さの増加は条件の多様性を低下させ, 一貫性を促進させるとともに, 合成実験と整合する合成-実分布シフトを減少させることが明らかとなった。
さらに、現在の推論時間の介入は、実際のデータのサポート外に移ることによる世代間の多様性を増大させる可能性がある。
これらの介入の中で、事前訓練された言語モデルを潜在的推定子として意図的に使用することにより、画像の多様性と美学の両方において、実際のデータよりも高いパフォーマンスを確実に達成する。
関連論文リスト
- Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。
近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。
本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文 参考訳(メタデータ) (2024-08-29T05:33:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition [0.2775636978045794]
実データと合成データを用いて学習したモデルの性能のドリフトについて検討する。
属性集合上の実データと合成データセットの差について検討する。
興味深いことに、我々は実際のサンプルが合成分布を説明するのに十分であるにもかかわらず、その逆はもはや真実ではないことを検証した。
論文 参考訳(メタデータ) (2024-04-23T17:10:49Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。