論文の概要: Canonical Latent Representations in Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.09955v1
- Date: Wed, 11 Jun 2025 17:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.168442
- Title: Canonical Latent Representations in Conditional Diffusion Models
- Title(参考訳): 条件付き拡散モデルにおける正準潜在表現
- Authors: Yitao Xu, Tong Zhang, Ehsan Pajouheshgar, Sabine Süsstrunk,
- Abstract要約: 条件拡散モデル (CDM) は, 様々な生成タスクにおいて顕著な性能を示した。
本稿では,新しい拡散型機能蒸留パラダイムであるCaDistillを提案する。
以上の結果から,CDMはイメージジェネレータとしてだけでなく,コンパクトで解釈可能な教師としても機能することが示唆された。
- 参考スコア(独自算出の注目度): 28.976069168646635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional diffusion models (CDMs) have shown impressive performance across a range of generative tasks. Their ability to model the full data distribution has opened new avenues for analysis-by-synthesis in downstream discriminative learning. However, this same modeling capacity causes CDMs to entangle the class-defining features with irrelevant context, posing challenges to extracting robust and interpretable representations. To this end, we identify Canonical LAtent Representations (CLAReps), latent codes whose internal CDM features preserve essential categorical information while discarding non-discriminative signals. When decoded, CLAReps produce representative samples for each class, offering an interpretable and compact summary of the core class semantics with minimal irrelevant details. Exploiting CLAReps, we develop a novel diffusion-based feature-distillation paradigm, CaDistill. While the student has full access to the training set, the CDM as teacher transfers core class knowledge only via CLAReps, which amounts to merely 10 % of the training data in size. After training, the student achieves strong adversarial robustness and generalization ability, focusing more on the class signals instead of spurious background cues. Our findings suggest that CDMs can serve not just as image generators but also as compact, interpretable teachers that can drive robust representation learning.
- Abstract(参考訳): 条件拡散モデル (CDM) は, 様々な生成タスクにおいて顕著な性能を示した。
完全なデータ分布をモデル化する能力は、下流の識別学習において、分析と合成のための新たな道を開いた。
しかし、このモデリング能力は、CDMがクラス定義の特徴を無関係なコンテキストで絡み合わせることを引き起こし、堅牢で解釈可能な表現を抽出する上での課題を提起する。
この目的のために,非識別信号を捨てながら,内部CDMの特徴を持つ潜在符号であるCanonical LAtent Representations (CLAReps)を同定する。
デコードされると、CLARepsは各クラスの代表サンプルを生成し、最小限の無関係な詳細を持つコアクラスのセマンティクスの解釈可能でコンパクトな要約を提供する。
CLARepsを駆使して,新しい拡散型機能蒸留パラダイムであるCaDistillを開発した。
学生はトレーニングセットに完全にアクセスできるが、教師としてのCDMはコアクラスの知識を CLAReps 経由でのみ転送する。
訓練後、学生は強い対向的堅牢性と一般化能力を獲得し、刺激的なバックグラウンドの手がかりではなく、クラス信号に重点を置いている。
この結果から,CDMはイメージジェネレータとしてだけでなく,コンパクトで解釈可能な教師として,堅牢な表現学習を推進できる可能性が示唆された。
関連論文リスト
- DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Automated Learning of Semantic Embedding Representations for Diffusion Models [1.688134675717698]
拡散モデルの表現能力を拡大するために,マルチレベル・デノナイジング・オートエンコーダ・フレームワークを用いる。
我々の研究は、DDMが生成タスクに適合するだけでなく、汎用的なディープラーニングアプリケーションにも有利である可能性を正当化している。
論文 参考訳(メタデータ) (2025-05-09T02:10:46Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - A Dual-Fusion Cognitive Diagnosis Framework for Open Student Learning Environments [10.066184572184627]
本稿では,2つの異なるモダリティを整合させる上での課題を解決するために,二重融合認知診断フレームワーク(DFCD)を提案する。
実験の結果,DFCDはオープンな学習環境において,異なるモダリティと強い適応性を統合することにより,優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-10-19T10:12:02Z) - MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion [14.907473847787541]
人間の骨格モデリングのための統合フレームワークとして,Masked Diffusion Conditional (MacDiff)を提案する。
まず,拡散モデルを用いて効率的な骨格表現学習を行う。
MacDiffは、生成タスクの能力を維持しながら、表現学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-16T17:06:10Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Representation Learning with Diffusion Models [0.0]
拡散モデル (DM) は画像合成タスクや密度推定において最先端の結果を得た。
拡散モデル(LRDM)を用いてそのような表現を学習するためのフレームワークを提案する。
特に、DMと表現エンコーダは、生成的認知過程に特有の豊かな表現を学習するために、共同で訓練される。
論文 参考訳(メタデータ) (2022-10-20T07:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。