論文の概要: Patronus: Bringing Transparency to Diffusion Models with Prototypes
- arxiv url: http://arxiv.org/abs/2503.22782v1
- Date: Fri, 28 Mar 2025 17:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:43.439340
- Title: Patronus: Bringing Transparency to Diffusion Models with Prototypes
- Title(参考訳): Patronus: プロトタイプによる拡散モデルへの透明性の実現
- Authors: Nina Weng, Aasa Feragen, Siavash Bigdeli,
- Abstract要約: 本稿ではProtoPNetにインスパイアされた解釈可能な拡散モデルであるemphPatronusを紹介する。
PatronusはプロトタイプネットワークをDDPMに統合し、プロトタイプの抽出と生成プロセスの条件付けを可能にする。
このモデルは、イメージ操作のような下流タスクをサポートし、より透明で制御された修正を可能にする。
- 参考スコア(独自算出の注目度): 4.7894373545842805
- License:
- Abstract: Diffusion-based generative models, such as Denoising Diffusion Probabilistic Models (DDPMs), have achieved remarkable success in image generation, but their step-by-step denoising process remains opaque, leaving critical aspects of the generation mechanism unexplained. To address this, we introduce \emph{Patronus}, an interpretable diffusion model inspired by ProtoPNet. Patronus integrates a prototypical network into DDPMs, enabling the extraction of prototypes and conditioning of the generation process on their prototype activation vector. This design enhances interpretability by showing the learned prototypes and how they influence the generation process. Additionally, the model supports downstream tasks like image manipulation, enabling more transparent and controlled modifications. Moreover, Patronus could reveal shortcut learning in the generation process by detecting unwanted correlations between learned prototypes. Notably, Patronus operates entirely without any annotations or text prompts. This work opens new avenues for understanding and controlling diffusion models through prototype-based interpretability. Our code is available at \href{https://github.com/nina-weng/patronus}{https://github.com/nina-weng/patronus}.
- Abstract(参考訳): Denoising Diffusion Probabilistic Models (DDPMs) のような拡散に基づく生成モデルは、画像生成において顕著に成功したが、ステップバイステップの分解プロセスは不透明であり、生成機構の重要な側面は説明されていない。
これを解決するために、ProtoPNetにインスパイアされた解釈可能な拡散モデルである \emph{Patronus} を導入する。
PatronusはプロトタイプネットワークをDDPMに統合し、プロトタイプの抽出とプロトタイプアクティベーションベクターの生成プロセスの条件付けを可能にする。
この設計は、学習したプロトタイプとそれらが生成プロセスに与える影響を示すことによって、解釈可能性を高める。
さらに、このモデルはイメージ操作のような下流タスクをサポートし、より透明で制御された修正を可能にする。
さらにPatronusは、学習したプロトタイプ間の不要な相関を検出することによって、生成プロセスにおけるショートカット学習を明らかにすることができる。
特に、Patronusは注釈やテキストのプロンプトなしで完全に動作する。
この研究は、プロトタイプベースの解釈可能性を通じて拡散モデルを理解し制御するための新しい道を開く。
私たちのコードは \href{https://github.com/nina-weng/patronus}{https://github.com/nina-weng/patronus} で利用可能です。
関連論文リスト
- Language Model Meets Prototypes: Towards Interpretable Text Classification Models through Prototypical Networks [1.1711824752079485]
論文は、LMをエンコーダとして使用する際に本質的に解釈可能なモデルを開発することに焦点を当てている。
ホワイトボックスのマルチヘッドグラフアテンションに基づくプロトタイプネットワークを開発した。
私は、解釈可能なグラフニューラルネットワークを再設計するために、コントラスト学習による注意ベースのプロトタイプネットワークの拡張に取り組んでいます。
論文 参考訳(メタデータ) (2024-12-04T22:59:35Z) - Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation [7.372346036256517]
意味的セグメンテーションを解釈可能なものにするための、有望なアプローチとして、プロトタイプ的な部分学習が登場している。
本稿では,多スケール画像表現を利用した意味的セグメンテーションの解釈手法を提案する。
Pascal VOC,Cityscapes,ADE20Kで行った実験により,提案手法はモデルの疎結合性を高め,既存のプロトタイプ手法よりも解釈可能性を高め,非解釈可能なモデルとの性能ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2024-09-14T17:52:59Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Securing Deep Generative Models with Universal Adversarial Signature [69.51685424016055]
深い生成モデルは、その潜在的な誤用のために社会に脅威をもたらす。
本稿では,任意の事前学習型生成モデルに普遍的逆数シグネチャを注入することを提案する。
提案手法は, FFHQ と ImageNet のデータセット上で, 様々な最先端生成モデルを用いて検証する。
論文 参考訳(メタデータ) (2023-05-25T17:59:01Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - DiffFacto: Controllable Part-Based 3D Point Cloud Generation with Cross
Diffusion [68.39543754708124]
DiffFactoは,部品レベルの制御で形状の分布を学習する新しい確率的生成モデルである。
実験により,複数の制御軸を持つ新しい形状を生成可能であることが示された。
最先端のパートレベルの生成品質を実現し、可塑性かつコヒーレントな形状を生成する。
論文 参考訳(メタデータ) (2023-05-03T06:38:35Z) - DiffPattern: Layout Pattern Generation via Discrete Diffusion [16.148506119712735]
信頼性の高いレイアウトパターンを生成するツールDiffPatternを提案する。
いくつかのベンチマーク設定の実験では、ToolDiffPatternが既存のベースラインを大幅に上回っていることが示されています。
論文 参考訳(メタデータ) (2023-03-23T06:16:14Z) - Deformable ProtoPNet: An Interpretable Image Classifier Using Deformable Prototypes [7.8515366468594765]
本稿では,Deformable Part Network(Deformable ProtoPNet)を提案する。
このモデルは、学習中に学習したプロトタイプと比較し、入力画像の分類を行い、「これのように見える」という形で説明を与える。
論文 参考訳(メタデータ) (2021-11-29T22:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。