論文の概要: $\textit{Revelio}$: Interpreting and leveraging semantic information in diffusion models
- arxiv url: http://arxiv.org/abs/2411.16725v1
- Date: Sat, 23 Nov 2024 03:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:44.306801
- Title: $\textit{Revelio}$: Interpreting and leveraging semantic information in diffusion models
- Title(参考訳): $\textit{Revelio}$:拡散モデルにおける意味情報の解釈と活用
- Authors: Dahye Kim, Xavier Thomas, Deepti Ghadiyaram,
- Abstract要約: 様々なレイヤで表現されるリッチな視覚的意味情報と,異なる拡散アーキテクチャの時間ステップについて検討する。
k-スパースオートエンコーダ(k-SAE)を利用した単意味的解釈可能な特徴を明らかにする。
既成拡散モデルの特徴量に対する軽量分類器を用いた移動学習による機械的解釈について検討する。
- 参考スコア(独自算出の注目度): 10.68914376295842
- License:
- Abstract: We study $\textit{how}$ rich visual semantic information is represented within various layers and denoising timesteps of different diffusion architectures. We uncover monosemantic interpretable features by leveraging k-sparse autoencoders (k-SAE). We substantiate our mechanistic interpretations via transfer learning using light-weight classifiers on off-the-shelf diffusion models' features. On $4$ datasets, we demonstrate the effectiveness of diffusion features for representation learning. We provide in-depth analysis of how different diffusion architectures, pre-training datasets, and language model conditioning impacts visual representation granularity, inductive biases, and transfer learning capabilities. Our work is a critical step towards deepening interpretability of black-box diffusion models. Code and visualizations available at: https://github.com/revelio-diffusion/revelio
- Abstract(参考訳): 様々なレイヤで表現されるリッチな視覚意味情報と,異なる拡散アーキテクチャの時間ステップについて検討する。
我々はk-スパースオートエンコーダ(k-SAE)を利用して単意味の解釈可能な特徴を明らかにする。
既成拡散モデルの特徴量に対する軽量分類器を用いた移動学習による機械的解釈について検討する。
4ドルのデータセットを用いて,表現学習における拡散機能の有効性を実証した。
我々は,拡散アーキテクチャ,事前学習データセット,言語モデル条件が視覚表現の粒度,帰納バイアス,伝達学習能力に与える影響を詳細に分析する。
我々の研究はブラックボックス拡散モデルの解釈可能性を高めるための重要なステップである。
コードと視覚化は:https://github.com/revelio-diffusion/revelio
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Diffusion Models and Representation Learning: A Survey [3.8861148837000856]
本調査では,拡散モデルと表現学習の相互作用について検討する。
これは、数学的基礎を含む拡散モデルの本質的な側面の概要を提供する。
拡散モデルと表現学習に関する様々なアプローチについて詳述する。
論文 参考訳(メタデータ) (2024-06-30T17:59:58Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Do text-free diffusion models learn discriminative visual representations? [39.78043004824034]
本稿では,タスクの両ファミリーを同時に扱うモデルである統一表現学習者の可能性について検討する。
生成タスクの最先端手法である拡散モデル(拡散モデル)を素数候補として開発する。
拡散モデルはGANよりも優れており、融合とフィードバック機構により、差別的タスクのための最先端の教師なし画像表現学習手法と競合することができる。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。