論文の概要: Good Seed Makes a Good Crop: Discovering Secret Seeds in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.14828v1
- Date: Thu, 23 May 2024 17:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:37:09.722442
- Title: Good Seed Makes a Good Crop: Discovering Secret Seeds in Text-to-Image Diffusion Models
- Title(参考訳): テキストと画像の拡散モデルで秘密の種を発見できる「Good Seed」
- Authors: Katherine Xu, Lingzhi Zhang, Jianbo Shi,
- Abstract要約: 拡散推論におけるランダム種子の影響について,大規模な科学的研究を行う。
我々は、最も優れた'金'シードが21.60の印象的なFIDを達成したのに対し、最悪の'金'シードのFIDは31.97であることがわかった。
分類器は、わずか数回で99.9%以上の精度で画像を生成するために使用されるシード番号を予測することができる。
- 参考スコア(独自算出の注目度): 13.4617544015866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) diffusion models have facilitated creative and photorealistic image synthesis. By varying the random seeds, we can generate various images for a fixed text prompt. Technically, the seed controls the initial noise and, in multi-step diffusion inference, the noise used for reparameterization at intermediate timesteps in the reverse diffusion process. However, the specific impact of the random seed on the generated images remains relatively unexplored. In this work, we conduct a large-scale scientific study into the impact of random seeds during diffusion inference. Remarkably, we reveal that the best 'golden' seed achieved an impressive FID of 21.60, compared to the worst 'inferior' seed's FID of 31.97. Additionally, a classifier can predict the seed number used to generate an image with over 99.9% accuracy in just a few epochs, establishing that seeds are highly distinguishable based on generated images. Encouraged by these findings, we examined the influence of seeds on interpretable visual dimensions. We find that certain seeds consistently produce grayscale images, prominent sky regions, or image borders. Seeds also affect image composition, including object location, size, and depth. Moreover, by leveraging these 'golden' seeds, we demonstrate improved image generation such as high-fidelity inference and diversified sampling. Our investigation extends to inpainting tasks, where we uncover some seeds that tend to insert unwanted text artifacts. Overall, our extensive analyses highlight the importance of selecting good seeds and offer practical utility for image generation.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)拡散モデルの最近の進歩は、創造的、フォトリアリスティックな画像合成を促進する。
ランダムな種を可変させることで、固定されたテキストプロンプトに対して様々な画像を生成することができる。
技術的には、シードは初期ノイズを制御し、多段階拡散推定では、逆拡散過程の中間段階における再パラメータ化に用いられるノイズを制御する。
しかし、生成した画像に対するランダムシードの具体的な影響は、まだ明らかになっていない。
本研究では,拡散推論におけるランダム種子の影響について,大規模な科学的研究を行う。
興味深いことに、最も優れた'金'シードが21.60の印象的なFIDを達成したのに対し、最悪の'不妊'シードのFIDは31.97である。
さらに、分類器は、わずかのエポックで99.9%以上の精度で画像を生成するために使用されるシード番号を予測でき、生成した画像に基づいて種子が高度に識別可能であることを確認できる。
これらの結果から,種が視覚的解釈にどのような影響を及ぼすかを検討した。
特定の種子は、グレースケールの画像、目立つ空域、または画像境界を連続的に生成していることがわかりました。
種子は、オブジェクトの位置、サイズ、深さなどの画像組成にも影響を及ぼす。
さらに,これらの「黄金」種子を活用することで,高忠実度推論や多彩化サンプリングなどの画像生成の改善を実証した。
我々の調査は、不要なテキストアーティファクトを挿入する傾向がある種子を発見できる作業に及んでいる。
総合的な分析では、良い種子を選択することの重要性を強調し、画像生成に実用的なユーティリティを提供する。
関連論文リスト
- Enhancing Compositional Text-to-Image Generation with Reliable Random Seeds [63.753710512888965]
テキスト間拡散モデルは任意のテキストプロンプトからリアルな画像を生成することができる。
彼らはしばしば「2匹の犬」や「ボウルの右側のペンギン」のような作曲のプロンプトに対して矛盾した結果を出す。
論文 参考訳(メタデータ) (2024-11-27T23:32:54Z) - Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation [58.77994391566484]
W1KPは、画像の集合における可変性の人間の校正尺度である。
最高の知覚距離は、9つの基準線を最大18ポイント精度で上回る。
実際のプロンプトの56の言語的特徴を分析し、プロンプトの長さ、CLIP埋め込みノルム、具体性、単語感覚が最も変動に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-12T17:59:27Z) - The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise [92.53724347718173]
拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めた。
我々は、初期ノイズ画像内の特定の領域をトリガーパッチと呼び、結果として発生する画像のオブジェクト生成に重要な役割を果たす。
論文 参考訳(メタデータ) (2024-06-04T05:06:00Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Diffusion Facial Forgery Detection [56.69763252655695]
本稿では,顔に焦点をあてた拡散生成画像を対象とした包括的データセットであるDiFFを紹介する。
人体実験といくつかの代表的な偽造検出手法を用いて,DiFFデータセットの広範な実験を行った。
その結果、人間の観察者と自動検出者の2値検出精度は30%以下であることが判明した。
論文 参考訳(メタデータ) (2024-01-29T03:20:19Z) - TIAM -- A Metric for Evaluating Alignment in Text-to-Image Generation [2.6890293832784566]
本稿では,プロンプトテンプレートに基づく新しいメトリクスを提案し,プロンプトで指定された内容と対応する生成された画像とのアライメントについて検討する。
我々のアプローチで得られた別の興味深い結果は、画像の品質が、画像のシードとして使われる雑音によって大きく変化することである。
論文 参考訳(メタデータ) (2023-07-11T09:23:05Z) - 4Weed Dataset: Annotated Imagery Weeds Dataset [1.5484595752241122]
データセットは、コクルバー画像159枚、フォックステール画像139枚、レッドルートピッグウィード画像170枚、ジャイアントラグウィード画像150枚で構成されている。
各画像にバウンディングボックスアノテーションが作成され、画像分類とオブジェクト検出深層学習ネットワークの両方をトレーニングするためのデータセットが準備された。
論文 参考訳(メタデータ) (2022-03-29T03:10:54Z) - An effective and friendly tool for seed image analysis [0.0]
本研究では,種子を含む画像から特徴抽出と分類を行い,画像解析を行うソフトウェアを提案する。
本研究では, 種子の画像から形態的, テクスチャ的, 色彩的特徴を抽出できるEmphImageJプラグインと, 抽出した特徴を用いて種子を分類するEmphImageJプラグインを2種類提案する。
実験結果は, 抽出した特徴と分類予測の正しさと妥当性を示した。
論文 参考訳(メタデータ) (2021-03-31T16:56:22Z) - Seed Phenotyping on Neural Networks using Domain Randomization and
Transfer Learning [0.0]
種子表現型は、種子の形態的特性を分析して、その挙動を発達、耐性、収量の観点から予測する考え方である。
研究の焦点は、最先端のオブジェクト検出およびローカリゼーションネットワークの適用および実現可能性分析である。
論文 参考訳(メタデータ) (2020-12-24T14:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。