Fugu-MT 論文翻訳(概要): The Hidden Language of Diffusion Models

論文の概要: The Hidden Language of Diffusion Models

arxiv url: http://arxiv.org/abs/2306.00966v3
Date: Thu, 5 Oct 2023 12:55:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 22:11:34.013626
Title: The Hidden Language of Diffusion Models
Title（参考訳）: 拡散モデルの隠れ言語
Authors: Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher, Michal Irani, Inbar Mosseri, Lior Wolf
Abstract要約: 本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
参考スコア（独自算出の注目度）: 70.03691458189604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual prompt. However, the internal representations learned by these models remain an enigma. In this work, we present Conceptor, a novel method to interpret the internal representation of a textual concept by a diffusion model. This interpretation is obtained by decomposing the concept into a small set of human-interpretable textual elements. Applied over the state-of-the-art Stable Diffusion model, Conceptor reveals non-trivial structures in the representations of concepts. For example, we find surprising visual connections between concepts, that transcend their textual semantics. We additionally discover concepts that rely on mixtures of exemplars, biases, renowned artistic styles, or a simultaneous fusion of multiple meanings of the concept. Through a large battery of experiments, we demonstrate Conceptor's ability to provide meaningful, robust, and faithful decompositions for a wide variety of abstract, concrete, and complex textual concepts, while allowing to naturally connect each decomposition element to its corresponding visual impact on the generated images. Our code will be available at: https://hila-chefer.github.io/Conceptor/
Abstract（参考訳）: テキストから画像への拡散モデルでは、テキストのプロンプトから高品質で多様な画像を生成することができる。しかし、これらのモデルによって学習された内部表現は謎のままである。本稿では,拡散モデルを用いてテキスト概念の内部表現を解釈する新しい手法であるconceptorを提案する。この解釈は、概念を人間の解釈可能なテキスト要素の小さなセットに分解することで得られる。最先端の安定拡散モデルに応用すると、概念表現における非自明な構造を明らかにする。例えば、テキストのセマンティクスを超越する、概念間の驚くべき視覚的なつながりを見つける。我々はまた、模範的、偏見、名高い芸術様式、あるいはその概念の複数の意味の同時融合に依存する概念も発見する。本研究では,多種多様な抽象的,具体的,複雑なテキスト概念に対して意味のある,頑健な,忠実な分解を提供する概念の能力を示すとともに,各分解要素を,生成した画像に対する視覚的影響に自然に結び付けることができる。コードはhttps://hila-chefer.github.io/conceptor/。

関連論文リスト

OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか? ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文参考訳（メタデータ） (2024-10-31T17:09:55Z)
Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文参考訳（メタデータ） (2024-10-01T04:41:44Z)
How to Blend Concepts in Diffusion Models [48.68800153838679]
近年の手法は複数の潜在表現とその関連性を利用しており、この研究はさらに絡み合っている。我々のゴールは、潜在空間における操作が根底にある概念にどのように影響するかを理解することです。我々の結論は、宇宙操作によるブレンドの概念は可能であるが、最良の戦略はブレンドの文脈に依存する。
論文参考訳（メタデータ） (2024-07-19T13:05:57Z)
Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models [60.80960965051388]
形容詞と動詞は名詞で絡み合っている(目的語) レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。レゴで作られたコンセプトは、ベースラインと比較して70%以上好まれていた。
論文参考訳（メタデータ） (2023-11-23T07:33:38Z)
FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文参考訳（メタデータ） (2022-03-30T19:45:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。