論文の概要: Diffusion Explainer: Visual Explanation for Text-to-image Stable
Diffusion
- arxiv url: http://arxiv.org/abs/2305.03509v2
- Date: Mon, 8 May 2023 21:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 15:10:27.017211
- Title: Diffusion Explainer: Visual Explanation for Text-to-image Stable
Diffusion
- Title(参考訳): Diffusion Explainer: テキスト間安定拡散のための視覚的説明
- Authors: Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang,
ShengYun Peng, Austin Wright, Kevin Li, Haekyu Park, Haoyang Yang, Duen Horng
Chau
- Abstract要約: Diffusion Explainerは、Stable Diffusionがいかにテキストプロンプトをイメージに変換するかを説明するインタラクティブツールである。
Diffusion Explainerは、インストールや特別なハードウェアを必要とせずに、ユーザのWebブラウザでローカルに実行される。
- 参考スコア(独自算出の注目度): 25.593360520973636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models' impressive ability to create convincing
images has captured global attention. However, their complex internal
structures and operations often make them difficult for non-experts to
understand. We present Diffusion Explainer, the first interactive visualization
tool that explains how Stable Diffusion transforms text prompts into images.
Diffusion Explainer tightly integrates a visual overview of Stable Diffusion's
complex components with detailed explanations of their underlying operations,
enabling users to fluidly transition between multiple levels of abstraction
through animations and interactive elements. By comparing the evolutions of
image representations guided by two related text prompts over refinement
timesteps, users can discover the impact of prompts on image generation.
Diffusion Explainer runs locally in users' web browsers without the need for
installation or specialized hardware, broadening the public's education access
to modern AI techniques. Our open-sourced tool is available at:
https://poloclub.github.io/diffusion-explainer/. A video demo is available at
https://youtu.be/Zg4gxdIWDds.
- Abstract(参考訳): 拡散に基づく生成モデルによる説得力のある画像の作成能力は、世界的な注目を集めている。
しかし、それらの複雑な内部構造や操作は、非専門家が理解しにくいことが多い。
私たちはDiffusion Explainerを紹介します。Diffusionは、テキストプロンプトを画像に変換する方法を説明する最初のインタラクティブな可視化ツールです。
Diffusion Explainerは、Stable Diffusionの複雑なコンポーネントの視覚的概要を根底にある操作の詳細な説明と密に統合し、ユーザはアニメーションとインタラクティブな要素を通じて、複数のレベルの抽象化を流動的に移行することができる。
2つの関連するテキストプロンプトによって導かれる画像表現の進化を時間ステップで比較することで、プロンプトが画像生成に与える影響を見つけることができる。
diffusion explanationerは、インストールや特別なハードウェアを必要とせずに、ユーザのwebブラウザでローカルに動作し、現代のai技術への教育アクセスを広げる。
私たちのオープンソースツールは、https://poloclub.github.io/diffusion-explainer/で利用可能です。
ビデオデモはhttps://youtu.be/zg4gxdiwddsで見ることができる。
関連論文リスト
- Interactive Visual Learning for Stable Diffusion [34.866499462799645]
Diffusion Explainerは、Diffusionベースの生成モデルがどのように説得力のあるイメージを生成するかを説明するツールである。
これは、Stable Diffusionの複雑なコンポーネントの視覚的概要と、その基盤となるオペレーションの詳細な説明を密に統合する。
113カ国にまたがる7,200以上のユーザが,当社のオープンソースツールを使用しています。
論文 参考訳(メタデータ) (2024-04-22T23:23:45Z) - De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。
説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。
DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。