Fugu-MT 論文翻訳(概要): Exploring Compositional Visual Generation with Latent Classifier Guidance

論文の概要: Exploring Compositional Visual Generation with Latent Classifier Guidance

arxiv url: http://arxiv.org/abs/2304.12536v2
Date: Wed, 24 May 2023 06:17:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 01:24:31.324595
Title: Exploring Compositional Visual Generation with Latent Classifier Guidance
Title（参考訳）: ラテント分類器誘導による合成視覚生成の探索
Authors: Changhao Shi, Haomiao Ni, Kai Li, Shaobo Han, Mingfu Liang, Martin Renqiang Min
Abstract要約: 我々は、潜在表現生成の非線形ナビゲーションを容易にするために、潜時拡散モデルと補助潜時分類器を訓練する。潜在分類器ガイダンスにより達成された条件付き生成は、トレーニング中の条件付きログ確率の低い境界を確実に最大化することを示す。遅延分類器誘導に基づくこのパラダイムは、事前学習された生成モデルに非依存であり、実画像と合成画像の逐次的操作と画像生成の両面での競合結果を示す。
参考スコア（独自算出の注目度）: 19.48538300223431
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion probabilistic models have achieved enormous success in the field of image generation and manipulation. In this paper, we explore a novel paradigm of using the diffusion model and classifier guidance in the latent semantic space for compositional visual tasks. Specifically, we train latent diffusion models and auxiliary latent classifiers to facilitate non-linear navigation of latent representation generation for any pre-trained generative model with a semantic latent space. We demonstrate that such conditional generation achieved by latent classifier guidance provably maximizes a lower bound of the conditional log probability during training. To maintain the original semantics during manipulation, we introduce a new guidance term, which we show is crucial for achieving compositionality. With additional assumptions, we show that the non-linear manipulation reduces to a simple latent arithmetic approach. We show that this paradigm based on latent classifier guidance is agnostic to pre-trained generative models, and present competitive results for both image generation and sequential manipulation of real and synthetic images. Our findings suggest that latent classifier guidance is a promising approach that merits further exploration, even in the presence of other strong competing methods.
Abstract（参考訳）: 拡散確率モデルは画像生成と操作の分野で大きな成功を収めている。本稿では,合成視覚タスクの潜在意味空間における拡散モデルと分類器指導を用いた新しいパラダイムについて検討する。具体的には、有意味な潜在空間を持つ任意の事前学習された生成モデルに対して、潜在拡散モデルと補助潜在分類器を訓練し、潜在表現生成の非線形ナビゲーションを容易にする。潜在分類器指導による条件付き生成は,訓練中の条件付きログ確率の下限を最大化する。操作中に元のセマンティクスを維持するために,合成性を達成する上で重要な新しい指導用語を導入する。さらなる仮定により、非線形演算は単純な潜在算術的アプローチに還元されることを示す。潜在分類器指導に基づくこのパラダイムは,事前学習した生成モデルと無関係であり,実画像および合成画像の逐次操作と画像生成における競合結果を示す。以上の結果から,潜在型分類法は,他の強力な競合手法が存在する場合でも,さらなる探索に役立つ有望なアプローチであることが示唆された。

関連論文リスト

Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector [14.027059904924135]
本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。 SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
論文参考訳（メタデータ） (2026-01-30T02:29:54Z)
GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文参考訳（メタデータ） (2025-11-18T06:40:26Z)
A Bayesian Approach to Weakly-supervised Laparoscopic Image Segmentation [1.9639956888747314]
スパースアノテーションを用いた腹腔鏡下画像分割法について検討した。本稿では,モデルのセグメンテーションの精度と解釈可能性を高めるために,ベイズ的深層学習手法を提案する。
論文参考訳（メタデータ） (2024-10-11T04:19:48Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文参考訳（メタデータ） (2024-03-26T06:35:55Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Manifold Contrastive Learning with Variational Lie Group Operators [5.0741409008225755]
そこで本研究では, 余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰乗群演算子を用いて, 潜在多様体を直接モデル化する対照的な学習手法を提案する。これらの係数上の変動分布は多様体の生成モデルを提供し、対照的なトレーニングと下流のタスクの両方で適用可能な特徴増強を提供するサンプルを提供する。
論文参考訳（メタデータ） (2023-06-23T15:07:01Z)
Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文参考訳（メタデータ） (2023-04-25T15:53:45Z)
Learning Data Representations with Joint Diffusion Models [20.25147743706431]
データの合成と分類を可能にする統合機械学習モデルは、多くの場合、それらのタスク間の不均一なパフォーマンスを提供するか、トレーニングが不安定である。それらの目的間のパラメータ化を共用した安定な連立エンドツーエンドトレーニングを可能にする分類器を用いて,バニラ拡散モデルを拡張した。結果として得られた共同拡散モデルは、評価された全てのベンチマークにおいて、分類と生成品質の両方の観点から、最近の最先端のハイブリッド手法よりも優れている。
論文参考訳（メタデータ） (2023-01-31T13:29:19Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-13T18:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。