論文の概要: Improving image synthesis with diffusion-negative sampling
- arxiv url: http://arxiv.org/abs/2411.05473v1
- Date: Fri, 08 Nov 2024 10:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:29.090074
- Title: Improving image synthesis with diffusion-negative sampling
- Title(参考訳): 拡散陰性サンプリングによる画像合成の改善
- Authors: Alakh Desai, Nuno Vasconcelos,
- Abstract要約: 拡散モデル(DM)を用いた画像生成のための新しい拡散陰性プロンプト(DNP)戦略を提案する。
DNPは、拡散陰性サンプリング(DNS)と呼ばれるDMの分布下においてpに最も適合していない画像のサンプリングを行う新しい手順に基づいている。
DNSの実装は簡単で、トレーニングは不要である。実験と人的評価により、DNPは定量的にも質的にもよく機能することが示された。
- 参考スコア(独自算出の注目度): 54.84368884047812
- License:
- Abstract: For image generation with diffusion models (DMs), a negative prompt n can be used to complement the text prompt p, helping define properties not desired in the synthesized image. While this improves prompt adherence and image quality, finding good negative prompts is challenging. We argue that this is due to a semantic gap between humans and DMs, which makes good negative prompts for DMs appear unintuitive to humans. To bridge this gap, we propose a new diffusion-negative prompting (DNP) strategy. DNP is based on a new procedure to sample images that are least compliant with p under the distribution of the DM, denoted as diffusion-negative sampling (DNS). Given p, one such image is sampled, which is then translated into natural language by the user or a captioning model, to produce the negative prompt n*. The pair (p, n*) is finally used to prompt the DM. DNS is straightforward to implement and requires no training. Experiments and human evaluations show that DNP performs well both quantitatively and qualitatively and can be easily combined with several DM variants.
- Abstract(参考訳): 拡散モデル(DM)を用いた画像生成では、テキストプロンプトpを補完するために負のプロンプトnを用いることができ、合成された画像では望ましくない特性を定義するのに役立つ。
これにより、プロンプトの付着と画質が向上するが、良い負のプロンプトを見つけることは困難である。
これは、人間とDMのセマンティックなギャップによるもので、DMが人間にとって直感的でないように思える、良いネガティブなプロンプトである、と我々は主張する。
このギャップを埋めるために,新しい拡散陰性プロンプト(DNP)戦略を提案する。
DNP は、拡散陰性サンプリング (DNS) と呼ばれる DM の分布において、p に最も適合しない画像のサンプリングを行う新しい手順に基づいている。
p が与えられたとき、そのような画像が1つサンプリングされ、ユーザまたはキャプションモデルによって自然言語に変換され、負のプロンプト n* を生成する。
ペア (p, n*) は最終的にDMを誘導するために使われる。
DNSの実装は簡単で、トレーニングは必要ありません。
実験と人的評価により、DNPは定量的にも質的にも良好に機能し、いくつかのDM変種と容易に組み合わせることができることが示された。
関連論文リスト
- Efficient Image-to-Image Diffusion Classifier for Adversarial Robustness [24.465567005078135]
拡散モデル (DM) は、対向的堅牢性の分野で大きな可能性を証明している。
DMは、大規模な事前訓練されたDMを使用するため、膨大な計算コストを必要とする。
我々は,U-Net構造と拡散時間を短縮した効率的な画像から画像への拡散分類器を提案する。
本手法は, DM法やCNN法よりも計算コストが少なく, 対数ロバスト性を向上する。
論文 参考訳(メタデータ) (2024-08-16T03:01:07Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into
3D, alleviate Janus problem and Beyond [49.94798429552442]
本稿では,現在の負のプロンプトアルゴリズムの欠点に対処するために,スコア空間の幾何学的性質を活用する新しいアルゴリズムPerp-Negを提案する。
Perp-Negはモデルのトレーニングや微調整を一切必要としない。
ユーザが不要な概念を編集できるようにすることで、Perp-Negは画像生成の柔軟性を向上することを示した。
論文 参考訳(メタデータ) (2023-04-11T04:29:57Z) - Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models [83.75414370493289]
拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
Diff-AEは自動符号化による表現学習のためのDPMを探索するために提案されている。
我々は、既存のトレーニング済みDPMをデコーダに適応させるために、textbfPre-trained textbfAutotextbfEncoding (textbfPDAE)を提案する。
論文 参考訳(メタデータ) (2022-12-26T02:37:38Z) - Safe Latent Diffusion: Mitigating Inappropriate Degeneration in
Diffusion Models [18.701950647429]
テキスト条件付き画像生成モデルは、劣化した人間の行動に悩まされる。
我々は、これらの望ましくない副作用に対処するために、安全な潜伏拡散(SLD)を提示する。
拡散過程において,SLDは不適切な画像部分を取り除き,抑制することを示す。
論文 参考訳(メタデータ) (2022-11-09T18:54:25Z) - Representation Learning with Diffusion Models [0.0]
拡散モデル (DM) は画像合成タスクや密度推定において最先端の結果を得た。
拡散モデル(LRDM)を用いてそのような表現を学習するためのフレームワークを提案する。
特に、DMと表現エンコーダは、生成的認知過程に特有の豊かな表現を学習するために、共同で訓練される。
論文 参考訳(メタデータ) (2022-10-20T07:26:47Z) - What can we learn about a generated image corrupting its latent
representation? [57.1841740328509]
GANのボトルネックにおける潜在表現に基づいて画像品質を予測できるという仮説を考察する。
遅延表現を雑音で破壊し、複数の出力を生成することでこれを実現できる。
論文 参考訳(メタデータ) (2022-10-12T14:40:32Z) - Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval [19.161248757493386]
本稿では, 否定文として自動的に合成文を生成するために, 識別・訂正による否定文をTAGS-DC(TAiloring Negative Sentences with Discrimination and Correction)を提案する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を,現在の最先端モデルと比較して検証した。
論文 参考訳(メタデータ) (2021-11-05T09:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。