論文の概要: Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2406.08482v1
- Date: Wed, 12 Jun 2024 17:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:27:35.099220
- Title: Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation
- Title(参考訳): 言葉の価値:テキスト・ツー・イメージ・ジェネレーションにおける知覚的多様性の測定と理解
- Authors: Raphael Tang, Xinyu Zhang, Lixinyu Xu, Yao Lu, Wenyan Li, Pontus Stenetorp, Jimmy Lin, Ferhan Ture,
- Abstract要約: 拡散モデル(diffusion model)は、テキスト・画像生成における技術の現状であるが、その知覚的多様性はまだ検討されていない。
W1KPは、既存の画像対知覚距離からブートストラップした画像の集合における可変性の人間の校正尺度である。
私たちの最高の知覚距離は、9つの基準線を最大18ポイント精度で上回り、キャリブレーションは人間の判断と78%の時間で一致します。
- 参考スコア(独自算出の注目度): 58.77994391566484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are the state of the art in text-to-image generation, but their perceptual variability remains understudied. In this paper, we examine how prompts affect image variability in black-box diffusion-based models. We propose W1KP, a human-calibrated measure of variability in a set of images, bootstrapped from existing image-pair perceptual distances. Current datasets do not cover recent diffusion models, thus we curate three test sets for evaluation. Our best perceptual distance outperforms nine baselines by up to 18 points in accuracy, and our calibration matches graded human judgements 78% of the time. Using W1KP, we study prompt reusability and show that Imagen prompts can be reused for 10-50 random seeds before new images become too similar to already generated images, while Stable Diffusion XL and DALL-E 3 can be reused 50-200 times. Lastly, we analyze 56 linguistic features of real prompts, finding that the prompt's length, CLIP embedding norm, concreteness, and word senses influence variability most. As far as we are aware, we are the first to analyze diffusion variability from a visuolinguistic perspective. Our project page is at http://w1kp.com
- Abstract(参考訳): 拡散モデルはテキスト・画像生成における最先端のモデルであるが、その知覚的変動性はまだ検討されていない。
そこで本研究では,ブラックボックス拡散モデルにおける画像のばらつきに対するプロンプトの影響について検討する。
W1KPは、既存の画像対知覚距離からブートストラップした画像の集合における可変性の人間の校正尺度である。
現在のデータセットは最近の拡散モデルをカバーしていないため、評価のために3つのテストセットをキュレートする。
最高の知覚距離は、9つの基準線を最大18ポイント精度で上回り、キャリブレーションは人間の判断の78%で一致します。
W1KPを用いて,新しい画像が既に生成した画像に近づきすぎる前に,画像nプロンプトを10~50個のランダムなシードに対して再利用できることを示し,また,安定拡散XLとDALL-E3を50~200回再利用可能であることを示す。
最後に、実際のプロンプトの56の言語的特徴を分析し、プロンプトの長さ、CLIP埋め込みノルム、具体性、単語感覚が最も変動に影響を及ぼすことを示した。
私たちが認識している限りでは、拡散の多様性を視覚言語学的観点から初めて分析する。
プロジェクトページはhttp://w1kp.comにあります。
関連論文リスト
- Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models [29.083402085790016]
本稿では,事前学習した拡散モデルのサンプル軌跡を,参照集合外に落下する画像上に着陸させる手法を提案する。
生成軌道全体にわたって拡散SDEに反発項を追加することでこれを実現できる。
一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-08T13:26:32Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Diversity and Diffusion: Observations on Synthetic Image Distributions
with Stable Diffusion [6.491645162078057]
Text-to-image (TTI)システムにより、単純なテキストプロンプトでリアルな画像を作成することができる。
これまでに行われたすべての実験において、合成画像のみで訓練された分類器は推論時に性能が良くない。
この課題に対するTTIシステムの有用性を制限する4つの問題:曖昧さ、プロンプトへの順守、多様性の欠如、基礎となる概念を表現できないこと。
論文 参考訳(メタデータ) (2023-10-31T18:05:15Z) - Evaluating Picture Description Speech for Dementia Detection using
Image-text Alignment [10.008388878255538]
画像と記述文の両方を入力として用いた最初の認知症検出モデルを提案する。
認知症と健康なサンプルの相違を,テキストが画像と集中領域に与える影響で観察する。
本稿では,画像,サブイメージ,集中領域との関連性に基づいて,サンプルを前処理する3つの高度なモデルを提案する。
論文 参考訳(メタデータ) (2023-08-11T08:42:37Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Invariant Learning via Diffusion Dreamed Distribution Shifts [121.71383835729848]
拡散ドリーム分布シフト(D3S)と呼ばれるデータセットを提案する。
D3Sは、テキストプロンプトを用いてStableDiffusionを通じて生成された合成画像と、サンプルフォアグラウンドイメージを背景テンプレートイメージにペーストした画像ガイドから構成される。
拡散モデルの驚くべきフォトリアリズムのため、我々の画像は以前の合成データセットよりも自然な画像に近い。
論文 参考訳(メタデータ) (2022-11-18T17:07:43Z) - What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。
説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。
DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:55:41Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。