論文の概要: The Hidden Language of Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.00966v1
- Date: Thu, 1 Jun 2023 17:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:48:13.470845
- Title: The Hidden Language of Diffusion Models
- Title(参考訳): 拡散モデルの隠れ言語
- Authors: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher,
Michal Irani, Inbar Mosseri, Lior Wolf
- Abstract要約: 我々は、入力テキストプロンプトを小さな解釈可能な要素の集合に分解することで、テキストから画像モデルへの概念表現の理解に挑戦する。
これは、モデルの語彙からトークンのまばらな重み付けの組み合わせである擬似トークンを学ぶことで達成される。
この分解は、概念の表現における非自明で驚くべき構造を明らかにする。
- 参考スコア(独自算出の注目度): 68.38446885933965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have demonstrated an unparalleled ability to
generate high-quality, diverse images from a textual concept (e.g., "a doctor",
"love"). However, the internal process of mapping text to a rich visual
representation remains an enigma. In this work, we tackle the challenge of
understanding concept representations in text-to-image models by decomposing an
input text prompt into a small set of interpretable elements. This is achieved
by learning a pseudo-token that is a sparse weighted combination of tokens from
the model's vocabulary, with the objective of reconstructing the images
generated for the given concept. Applied over the state-of-the-art Stable
Diffusion model, this decomposition reveals non-trivial and surprising
structures in the representations of concepts. For example, we find that some
concepts such as "a president" or "a composer" are dominated by specific
instances (e.g., "Obama", "Biden") and their interpolations. Other concepts,
such as "happiness" combine associated terms that can be concrete ("family",
"laughter") or abstract ("friendship", "emotion"). In addition to peering into
the inner workings of Stable Diffusion, our method also enables applications
such as single-image decomposition to tokens, bias detection and mitigation,
and semantic image manipulation. Our code will be available at:
https://hila-chefer.github.io/Conceptor/
- Abstract(参考訳): テキストから画像への拡散モデルは、テキストの概念(例えば「医者」や「愛」)から高品質で多様な画像を生成できる非並列的な能力を示している。
しかし、テキストをリッチな視覚表現にマッピングする内部プロセスは謎のままである。
本研究では、入力テキストプロンプトを小さな解釈可能な要素の集合に分解することで、テキストから画像モデルへの概念表現の理解に挑戦する。
これは、与えられた概念のために生成されたイメージを再構築する目的で、モデルの語彙からトークンを疎みに重み付けした擬似トークンを学ぶことで達成される。
最先端の安定拡散モデルに適用されるこの分解は、概念の表現における非自明で驚くべき構造を明らかにする。
例えば、「大統領」や「作曲家」といった概念は特定の例(例えば「オバマ」、「バイデン」など)とそれらの補間によって支配されている。
その他の概念、例えば「幸せ」は、具体的(家族)、笑い(笑い)、抽象的(友情(友情)、感情(感情)といった関連用語を組み合わせる。
安定拡散法の内部動作をピアリングすることに加えて,トークンへの単一像分解,バイアス検出と緩和,セマンティックイメージ操作などの応用も可能とした。
コードはhttps://hila-chefer.github.io/conceptor/。
関連論文リスト
- Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか?
ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。
さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文 参考訳(メタデータ) (2024-10-31T17:09:55Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - How to Blend Concepts in Diffusion Models [48.68800153838679]
近年の手法は複数の潜在表現とその関連性を利用しており、この研究はさらに絡み合っている。
我々のゴールは、潜在空間における操作が根底にある概念にどのように影響するかを理解することです。
我々の結論は、宇宙操作によるブレンドの概念は可能であるが、最良の戦略はブレンドの文脈に依存する。
論文 参考訳(メタデータ) (2024-07-19T13:05:57Z) - Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models [60.80960965051388]
形容詞と動詞は名詞で絡み合っている(目的語)
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
レゴで作られたコンセプトは、ベースラインと比較して70%以上好まれていた。
論文 参考訳(メタデータ) (2023-11-23T07:33:38Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。