論文の概要: Compositional Discrete Latent Code for High Fidelity, Productive Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.12318v1
- Date: Wed, 16 Jul 2025 15:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.446448
- Title: Compositional Discrete Latent Code for High Fidelity, Productive Diffusion Models
- Title(参考訳): 高忠実・生産拡散モデルのための合成離散遅延符号
- Authors: Samuel Lavoie, Michael Noukhovitch, Aaron Courville,
- Abstract要約: 本稿では,自己教師型学習目標を用いて学習した単純埋め込みから導出した画像表現である離散遅延符号(DLC)を紹介する。
DLCは、標準的な連続画像埋め込みとは対照的に、離散トークンのシーケンスである。
生成が容易で、その構成性は、トレーニング分布を超えた新しい画像のサンプリングを可能にする。
- 参考スコア(独自算出の注目度): 1.9129789494874188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that diffusion models' success in modeling complex distributions is, for the most part, coming from their input conditioning. This paper investigates the representation used to condition diffusion models from the perspective that ideal representations should improve sample fidelity, be easy to generate, and be compositional to allow out-of-training samples generation. We introduce Discrete Latent Code (DLC), an image representation derived from Simplicial Embeddings trained with a self-supervised learning objective. DLCs are sequences of discrete tokens, as opposed to the standard continuous image embeddings. They are easy to generate and their compositionality enables sampling of novel images beyond the training distribution. Diffusion models trained with DLCs have improved generation fidelity, establishing a new state-of-the-art for unconditional image generation on ImageNet. Additionally, we show that composing DLCs allows the image generator to produce out-of-distribution samples that coherently combine the semantics of images in diverse ways. Finally, we showcase how DLCs can enable text-to-image generation by leveraging large-scale pretrained language models. We efficiently finetune a text diffusion language model to generate DLCs that produce novel samples outside of the image generator training distribution.
- Abstract(参考訳): 複素分布のモデル化における拡散モデルの成功は、ほとんどの場合、入力条件から生じるものであると論じる。
本稿では, 理想的な表現が標本の忠実度を向上し, 生成が容易で, 学習外サンプル生成を可能にするために構成的である,という観点から, 拡散モデルを記述するために用いられる表現について検討する。
本稿では,自己教師型学習目標を用いて学習した単純埋め込みから導出した画像表現である離散遅延符号(DLC)を紹介する。
DLCは、標準的な連続画像埋め込みとは対照的に、離散トークンのシーケンスである。
生成が容易で、その構成性は、トレーニング分布を超えた新しい画像のサンプリングを可能にする。
DLCで訓練された拡散モデルは、生成の忠実性を改善し、ImageNet上での非条件画像生成のための新しい最先端技術を確立した。
さらに,DLCを合成することで,画像のセマンティクスを多様に組み合わせた分布外サンプルを生成できることを示す。
最後に,大規模な事前学習型言語モデルを活用することで,DLCがテキスト・画像生成を実現する方法を紹介する。
テキスト拡散言語モデルを効率よく微調整し、画像生成器トレーニング分布外の新しいサンプルを生成するDLCを生成する。
関連論文リスト
- DreamDistribution: Learning Prompt Distribution for Diverse In-distribution Generation [51.24734569887687]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Generating images of rare concepts using pre-trained diffusion models [32.5337654536764]
テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:55:38Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。