論文の概要: Distribution-Conditional Generation: From Class Distribution to Creative Generation
- arxiv url: http://arxiv.org/abs/2505.03667v1
- Date: Tue, 06 May 2025 16:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.466795
- Title: Distribution-Conditional Generation: From Class Distribution to Creative Generation
- Title(参考訳): 分散概念生成: クラス分布から創造的生成へ
- Authors: Fu Feng, Yucheng Xie, Xu Yang, Jing Wang, Xin Geng,
- Abstract要約: DisTokは、クラス分散を潜在空間にマッピングし、それらを創造的な概念のトークンにデコードするエンコーダ・デコーダフレームワークである。
DisTokは、テキストイメージアライメントと人間の好みスコアで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 39.93527514513576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models are effective at producing semantically aligned images, but their reliance on training data distributions limits their ability to synthesize truly novel, out-of-distribution concepts. Existing methods typically enhance creativity by combining pairs of known concepts, yielding compositions that, while out-of-distribution, remain linguistically describable and bounded within the existing semantic space. Inspired by the soft probabilistic outputs of classifiers on ambiguous inputs, we propose Distribution-Conditional Generation, a novel formulation that models creativity as image synthesis conditioned on class distributions, enabling semantically unconstrained creative generation. Building on this, we propose DisTok, an encoder-decoder framework that maps class distributions into a latent space and decodes them into tokens of creative concept. DisTok maintains a dynamic concept pool and iteratively sampling and fusing concept pairs, enabling the generation of tokens aligned with increasingly complex class distributions. To enforce distributional consistency, latent vectors sampled from a Gaussian prior are decoded into tokens and rendered into images, whose class distributions-predicted by a vision-language model-supervise the alignment between input distributions and the visual semantics of generated tokens. The resulting tokens are added to the concept pool for subsequent composition. Extensive experiments demonstrate that DisTok, by unifying distribution-conditioned fusion and sampling-based synthesis, enables efficient and flexible token-level generation, achieving state-of-the-art performance with superior text-image alignment and human preference scores.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルはセマンティック・アライメント・イメージの生成に有効であるが、そのトレーニングデータ分布への依存は、真に新しいアウト・オブ・ディストリビューションの概念を合成する能力を制限している。
既存の方法は通常、既知の概念のペアを組み合わせることで創造性を向上し、アウト・オブ・ディストリビューション(out-of-distribution)であるにもかかわらず、既存の意味空間内に言語的に記述可能で有界な構成を与える。
不明瞭な入力に対する分類器のソフトな確率的出力にインスパイアされ、クラス分布に条件付き画像合成として創造性をモデル化し、意味的に制約のない創造的生成を可能にする新しい定式化であるDis Distribution-Conditional Generationを提案する。
これに基づいて、クラス分布を潜在空間にマッピングし、それらを創造的概念のトークンにデコードする、エンコーダ・デコーダフレームワークであるDisTokを提案する。
DisTokは動的概念プールを維持し、反復的に概念ペアをサンプリングし、融合することで、ますます複雑なクラス分布に整合したトークンの生成を可能にする。
分布の整合性を強化するために、ガウス事前からサンプリングされた潜伏ベクトルをトークンにデコードして画像に描画し、そのクラス分布を視覚言語モデルにより予測し、入力分布と生成されたトークンの視覚的意味論の整合性を監督する。
結果として生じるトークンは、後続のコンポジションのための概念プールに追加される。
分散条件の融合とサンプリングベース合成を統一することにより、DisTokは効率的なフレキシブルなトークンレベル生成を可能にし、テキスト画像のアライメントと人間の嗜好スコアを向上して最先端のパフォーマンスを実現する。
関連論文リスト
- Redefining <Creative> in Dictionary: Towards an Enhanced Semantic Understanding of Creative Generation [39.93527514513576]
Creative'' は人間と拡散モデルの両方にとって本質的に抽象的な概念である。
現在の手法は、創造的な効果を達成するために参照プロンプトやイメージに大きく依存している。
CreTokを紹介します。これは、新しいトークンであるtexttCreTok>として、創造性を再定義することで、拡散モデルにメタ創造性をもたらすものです。
コードはhttps://github.com/fu-feng/CreTok.comで公開される。
論文 参考訳(メタデータ) (2024-10-31T17:19:03Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow [94.90853153808987]
セマンティックセグメンテーション(Semantic segmentation)とセマンティックイメージ合成(Semantic image synthesis)は、視覚知覚と生成において代表的なタスクである。
我々は、統一されたフレームワーク(SemFlow)を提案し、それらを2つの逆問題としてモデル化する。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
論文 参考訳(メタデータ) (2024-05-30T17:34:40Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Exploring Compositional Visual Generation with Latent Classifier
Guidance [19.48538300223431]
我々は、潜在表現生成の非線形ナビゲーションを容易にするために、潜時拡散モデルと補助潜時分類器を訓練する。
潜在分類器ガイダンスにより達成された条件付き生成は、トレーニング中の条件付きログ確率の低い境界を確実に最大化することを示す。
遅延分類器誘導に基づくこのパラダイムは、事前学習された生成モデルに非依存であり、実画像と合成画像の逐次的操作と画像生成の両面での競合結果を示す。
論文 参考訳(メタデータ) (2023-04-25T03:02:58Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。