論文の概要: What the DAAM: Interpreting Stable Diffusion Using Cross Attention
- arxiv url: http://arxiv.org/abs/2210.04885v2
- Date: Tue, 11 Oct 2022 14:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 11:12:05.314556
- Title: What the DAAM: Interpreting Stable Diffusion Using Cross Attention
- Title(参考訳): DAAM: 交差注意を用いた安定拡散の解釈
- Authors: Raphael Tang, Akshat Pandey, Zhiying Jiang, Gefei Yang, Karun Kumar,
Jimmy Lin, Ferhan Ture
- Abstract要約: 大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。
説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。
DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 39.97805685586423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale diffusion neural networks represent a substantial milestone in
text-to-image generation, with some performing similar to real photographs in
human evaluation. However, they remain poorly understood, lacking
explainability and interpretability analyses, largely due to their proprietary,
closed-source nature. In this paper, to shine some much-needed light on
text-to-image diffusion models, we perform a text-image attribution analysis on
Stable Diffusion, a recently open-sourced large diffusion model. To produce
pixel-level attribution maps, we propose DAAM, a novel method based on
upscaling and aggregating cross-attention activations in the latent denoising
subnetwork. We support its correctness by evaluating its unsupervised semantic
segmentation quality on its own generated imagery, compared to supervised
segmentation models. We show that DAAM performs strongly on COCO
caption-generated images, achieving an mIoU of 61.0, and it outperforms
supervised models on open-vocabulary segmentation, for an mIoU of 51.5. We
further find that certain parts of speech, like punctuation and conjunctions,
influence the generated imagery most, which agrees with the prior literature,
while determiners and numerals the least, suggesting poor numeracy. To our
knowledge, we are the first to propose and study word-pixel attribution for
large-scale text-to-image diffusion models. Our code and data are at
https://github.com/castorini/daam.
- Abstract(参考訳): 大規模拡散ニューラルネットワークは、テキストから画像への生成において重要なマイルストーンであり、人間の評価で実際の写真と類似したパフォーマンスを示すものもある。
しかし、説明可能性や解釈可能性の欠如は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,最近オープンソース化された大規模拡散モデルであるstable diffusionに関するテキスト画像アトリビューション解析を行う。
ピクセルレベルアトリビューションマップを作成するために,潜在デノイジングサブネットワークにおけるクロスアトリビューションアクティベーションのスケールアップと集約に基づく新しい手法daamを提案する。
我々は,教師なしセグメンテーションモデルと比較して,教師なしセグメンテーション品質を自己生成画像上で評価することにより,その正確性を支持する。
daamがcocoキャプション生成画像に強く作用し,miouは61.0で,オープンボキャブラリーセグメンテーションでは51.5のmiouに対して教師ありモデルよりも優れていた。
さらに, 句読点や連接点など, 音声の特定の部分が生成した画像に最も影響を与え, 先行文献と一致しているのに対し, 決定者や数字は最小であり, ニュマ性に乏しいことを示唆する。
私たちの知識では,大規模テキストから画像への拡散モデルに対して,ワードピクセルの帰属を初めて提案し,研究する。
私たちのコードとデータはhttps://github.com/castorini/daamにあります。
関連論文リスト
- Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。