論文の概要: Exploring Compositional Visual Generation with Latent Classifier
Guidance
- arxiv url: http://arxiv.org/abs/2304.12536v2
- Date: Wed, 24 May 2023 06:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 01:24:31.324595
- Title: Exploring Compositional Visual Generation with Latent Classifier
Guidance
- Title(参考訳): ラテント分類器誘導による合成視覚生成の探索
- Authors: Changhao Shi, Haomiao Ni, Kai Li, Shaobo Han, Mingfu Liang, Martin
Renqiang Min
- Abstract要約: 我々は、潜在表現生成の非線形ナビゲーションを容易にするために、潜時拡散モデルと補助潜時分類器を訓練する。
潜在分類器ガイダンスにより達成された条件付き生成は、トレーニング中の条件付きログ確率の低い境界を確実に最大化することを示す。
遅延分類器誘導に基づくこのパラダイムは、事前学習された生成モデルに非依存であり、実画像と合成画像の逐次的操作と画像生成の両面での競合結果を示す。
- 参考スコア(独自算出の注目度): 19.48538300223431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion probabilistic models have achieved enormous success in the field of
image generation and manipulation. In this paper, we explore a novel paradigm
of using the diffusion model and classifier guidance in the latent semantic
space for compositional visual tasks. Specifically, we train latent diffusion
models and auxiliary latent classifiers to facilitate non-linear navigation of
latent representation generation for any pre-trained generative model with a
semantic latent space. We demonstrate that such conditional generation achieved
by latent classifier guidance provably maximizes a lower bound of the
conditional log probability during training. To maintain the original semantics
during manipulation, we introduce a new guidance term, which we show is crucial
for achieving compositionality. With additional assumptions, we show that the
non-linear manipulation reduces to a simple latent arithmetic approach. We show
that this paradigm based on latent classifier guidance is agnostic to
pre-trained generative models, and present competitive results for both image
generation and sequential manipulation of real and synthetic images. Our
findings suggest that latent classifier guidance is a promising approach that
merits further exploration, even in the presence of other strong competing
methods.
- Abstract(参考訳): 拡散確率モデルは画像生成と操作の分野で大きな成功を収めている。
本稿では,合成視覚タスクの潜在意味空間における拡散モデルと分類器指導を用いた新しいパラダイムについて検討する。
具体的には、有意味な潜在空間を持つ任意の事前学習された生成モデルに対して、潜在拡散モデルと補助潜在分類器を訓練し、潜在表現生成の非線形ナビゲーションを容易にする。
潜在分類器指導による条件付き生成は,訓練中の条件付きログ確率の下限を最大化する。
操作中に元のセマンティクスを維持するために,合成性を達成する上で重要な新しい指導用語を導入する。
さらなる仮定により、非線形演算は単純な潜在算術的アプローチに還元されることを示す。
潜在分類器指導に基づくこのパラダイムは,事前学習した生成モデルと無関係であり,実画像および合成画像の逐次操作と画像生成における競合結果を示す。
以上の結果から,潜在型分類法は,他の強力な競合手法が存在する場合でも,さらなる探索に役立つ有望なアプローチであることが示唆された。
関連論文リスト
- Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Manifold Contrastive Learning with Variational Lie Group Operators [5.0741409008225755]
そこで本研究では, 余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰乗群演算子を用いて, 潜在多様体を直接モデル化する対照的な学習手法を提案する。
これらの係数上の変動分布は多様体の生成モデルを提供し、対照的なトレーニングと下流のタスクの両方で適用可能な特徴増強を提供するサンプルを提供する。
論文 参考訳(メタデータ) (2023-06-23T15:07:01Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - Learning Data Representations with Joint Diffusion Models [20.25147743706431]
データの合成と分類を可能にする統合機械学習モデルは、多くの場合、それらのタスク間の不均一なパフォーマンスを提供するか、トレーニングが不安定である。
それらの目的間のパラメータ化を共用した安定な連立エンドツーエンドトレーニングを可能にする分類器を用いて,バニラ拡散モデルを拡張した。
結果として得られた共同拡散モデルは、評価された全てのベンチマークにおいて、分類と生成品質の両方の観点から、最近の最先端のハイブリッド手法よりも優れている。
論文 参考訳(メタデータ) (2023-01-31T13:29:19Z) - Learning Sparse Latent Representations for Generator Model [7.467412443287767]
そこで本研究では,ジェネレータモデルの潜在空間に空間空間を強制する教師なし学習手法を提案する。
我々のモデルは1つのトップダウンジェネレータネットワークから成り、潜在変数を観測データにマッピングする。
論文 参考訳(メタデータ) (2022-09-20T18:58:24Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。