論文の概要: The Hidden Language of Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.00966v3
- Date: Thu, 5 Oct 2023 12:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 22:11:34.013626
- Title: The Hidden Language of Diffusion Models
- Title(参考訳): 拡散モデルの隠れ言語
- Authors: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher,
Michal Irani, Inbar Mosseri, Lior Wolf
- Abstract要約: 本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
- 参考スコア(独自算出の注目度): 70.03691458189604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have demonstrated an unparalleled ability to
generate high-quality, diverse images from a textual prompt. However, the
internal representations learned by these models remain an enigma. In this
work, we present Conceptor, a novel method to interpret the internal
representation of a textual concept by a diffusion model. This interpretation
is obtained by decomposing the concept into a small set of human-interpretable
textual elements. Applied over the state-of-the-art Stable Diffusion model,
Conceptor reveals non-trivial structures in the representations of concepts.
For example, we find surprising visual connections between concepts, that
transcend their textual semantics. We additionally discover concepts that rely
on mixtures of exemplars, biases, renowned artistic styles, or a simultaneous
fusion of multiple meanings of the concept. Through a large battery of
experiments, we demonstrate Conceptor's ability to provide meaningful, robust,
and faithful decompositions for a wide variety of abstract, concrete, and
complex textual concepts, while allowing to naturally connect each
decomposition element to its corresponding visual impact on the generated
images. Our code will be available at: https://hila-chefer.github.io/Conceptor/
- Abstract(参考訳): テキストから画像への拡散モデルでは、テキストのプロンプトから高品質で多様な画像を生成することができる。
しかし、これらのモデルによって学習された内部表現は謎のままである。
本稿では,拡散モデルを用いてテキスト概念の内部表現を解釈する新しい手法であるconceptorを提案する。
この解釈は、概念を人間の解釈可能なテキスト要素の小さなセットに分解することで得られる。
最先端の安定拡散モデルに応用すると、概念表現における非自明な構造を明らかにする。
例えば、テキストのセマンティクスを超越する、概念間の驚くべき視覚的なつながりを見つける。
我々はまた、模範的、偏見、名高い芸術様式、あるいはその概念の複数の意味の同時融合に依存する概念も発見する。
本研究では,多種多様な抽象的,具体的,複雑なテキスト概念に対して意味のある,頑健な,忠実な分解を提供する概念の能力を示すとともに,各分解要素を,生成した画像に対する視覚的影響に自然に結び付けることができる。
コードはhttps://hila-chefer.github.io/conceptor/。
関連論文リスト
- Lego: Learning to Disentangle and Invert Concepts Beyond Object
Appearance in Text-to-Image Diffusion Models [66.43013001061477]
いくつかのサンプル画像から対象の絡み合った概念を逆転させる手法であるLegoを導入する。
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
徹底的なユーザスタディでは、レゴ生成の概念がベースラインと比較して70%以上好まれました。
論文 参考訳(メタデータ) (2023-11-23T07:33:38Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - Analyzing Encoded Concepts in Transformer Language Models [21.76062029833023]
ConceptXは、事前訓練された言語モデル内で学習された表現において、潜伏概念がどのように符号化されるかを分析する。
クラスタリングを使用して、符号化された概念を発見し、人間の定義した概念の大規模なセットと整合してそれらを説明する。
論文 参考訳(メタデータ) (2022-06-27T13:32:10Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。