論文の概要: Controllable Image Generation With Composed Parallel Token Prediction
- arxiv url: http://arxiv.org/abs/2405.06535v1
- Date: Fri, 10 May 2024 15:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 15:28:24.874761
- Title: Controllable Image Generation With Composed Parallel Token Prediction
- Title(参考訳): 並列トケ予測合成による制御可能な画像生成
- Authors: Jamie Stirling, Noura Al-Moubayed,
- Abstract要約: 合成画像生成は、2つ以上の入力概念が必ずしも訓練中に一緒に現れない状況においてモデルをうまく一般化する必要がある。
本稿では、潜在空間の離散生成モデルの対数確率出力を構成することにより、画像の制御可能な条件生成のための定式化を提案する。
- 参考スコア(独自算出の注目度): 5.107886283951882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional image generation requires models to generalise well in situations where two or more input concepts do not necessarily appear together in training (compositional generalisation). Despite recent progress in compositional image generation via composing continuous sampling processes such as diffusion and energy-based models, composing discrete generative processes has remained an open challenge, with the promise of providing improvements in efficiency, interpretability and simplicity. To this end, we propose a formulation for controllable conditional generation of images via composing the log-probability outputs of discrete generative models of the latent space. Our approach, when applied alongside VQ-VAE and VQ-GAN, achieves state-of-the-art generation accuracy in three distinct settings (FFHQ, Positional CLEVR and Relational CLEVR) while attaining competitive Fr\'echet Inception Distance (FID) scores. Our method attains an average generation accuracy of $80.71\%$ across the studied settings. Our method also outperforms the next-best approach (ranked by accuracy) in terms of FID in seven out of nine experiments, with an average FID of $24.23$ (an average improvement of $-9.58$). Furthermore, our method offers a $2.3\times$ to $12\times$ speedup over comparable continuous compositional methods on our hardware. We find that our method can generalise to combinations of input conditions that lie outside the training data (e.g. more objects per image) in addition to offering an interpretable dimension of controllability via concept weighting. We further demonstrate that our approach can be readily applied to an open pre-trained discrete text-to-image model without any fine-tuning, allowing for fine-grained control of text-to-image generation.
- Abstract(参考訳): 合成画像生成は、2つ以上の入力概念が必ずしも訓練(合成一般化)で必ずしも一緒に現れない状況において、モデルをうまく一般化する必要がある。
拡散やエネルギーベースモデルのような連続的なサンプリングプロセスを構成することで合成画像の生成が近年進歩しているにもかかわらず、離散生成プロセスを構成することは、効率、解釈可能性、単純性の向上を約束する、オープンな課題である。
そこで本稿では,潜在空間の離散生成モデルの対数確率出力を構成することにより,画像の制御可能な条件生成の定式化を提案する。
提案手法は,VQ-VAEとVQ-GANと併用することで,Fr'echet Inception Distance(FID)スコアを達成しつつ,3つの異なる設定(FFHQ, positional CLEVR, Relational CLEVR)で最先端生成精度を実現する。
提案手法は, 実験環境における平均生成精度を80.71 %とする。
提案手法は,9実験中7実験において,FIDの平均値が24.23ドル(平均値が9.58ドル)である場合において,FIDの次の最良値(精度)よりも優れていた。
さらに,本手法では,ハードウェア上での連続合成手法の高速化に対して,2.3\times$から12\times$の高速化を提供する。
提案手法は,学習データ外にある入力条件(例えば,画像当たりのオブジェクト数)の組み合わせに一般化することができ,また,概念重み付けによる解釈可能な制御可能性の次元を提供する。
さらに,本手法は個別のテキスト・ツー・イメージ・モデルに対して,微調整なしで容易に適用できることを示し,テキスト・ツー・イメージ生成のきめ細かい制御を可能にする。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。
本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。
我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文 参考訳(メタデータ) (2023-07-17T17:57:56Z) - Optimized latent-code selection for explainable conditional
text-to-image GANs [8.26410341981427]
本稿では,条件付きテキスト・ツー・イメージGANモデルの潜時空間と意味空間を深く検討する様々な手法を提案する。
本稿では,線形SVMを用いて,優れた潜在コードを見つけるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-27T03:12:55Z) - Controllable and Compositional Generation with Latent-Space Energy-Based
Models [60.87740144816278]
制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-21T03:31:45Z) - Training End-to-end Single Image Generators without GANs [27.393821783237186]
AugurOneは、単一画像生成モデルをトレーニングするための新しいアプローチである。
提案手法は,入力画像の非アフィン強化を用いて,アップスケーリングニューラルネットワークを訓練する。
制御画像合成が可能なコンパクト潜在空間を共同で学習する。
論文 参考訳(メタデータ) (2020-04-07T17:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。