論文の概要: CLIP is All You Need for Human-like Semantic Representations in Stable Diffusion
- arxiv url: http://arxiv.org/abs/2511.08075v1
- Date: Wed, 12 Nov 2025 01:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.628039
- Title: CLIP is All You Need for Human-like Semantic Representations in Stable Diffusion
- Title(参考訳): 安定拡散における人間のようなセマンティック表現に必要なCLIP
- Authors: Cameron Braunstein, Mariya Toneva, Eddy Ilg,
- Abstract要約: テキスト・画像生成モデルで使用される内部表現が、人間にとって意味のある意味情報を含むかどうかを検討する。
この成功は、逆拡散プロセスではなく、CLIPで発生するテキストエンコーディングによるものであることが判明した。
我々は、別々に訓練されたCLIP視覚言語モデルが、人間のような意味表現を決定するものであると結論付けた。
- 参考スコア(独自算出の注目度): 15.715635327960882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent diffusion models such as Stable Diffusion achieve state-of-the-art results on text-to-image generation tasks. However, the extent to which these models have a semantic understanding of the images they generate is not well understood. In this work, we investigate whether the internal representations used by these models during text-to-image generation contain semantic information that is meaningful to humans. To do so, we perform probing on Stable Diffusion with simple regression layers that predict semantic attributes for objects and evaluate these predictions against human annotations. Surprisingly, we find that this success can actually be attributed to the text encoding occurring in CLIP rather than the reverse diffusion process. We demonstrate that groups of specific semantic attributes have markedly different decoding accuracy than the average, and are thus represented to different degrees. Finally, we show that attributes become more difficult to disambiguate from one another during the inverse diffusion process, further demonstrating the strongest semantic representation of object attributes in CLIP. We conclude that the separately trained CLIP vision-language model is what determines the human-like semantic representation, and that the diffusion process instead takes the role of a visual decoder.
- Abstract(参考訳): 安定拡散のような遅延拡散モデルは、テキスト・画像生成タスクにおける最先端の結果を得る。
しかし、これらのモデルが生成した画像について意味論的に理解している範囲はよく分かっていない。
本研究では,テキスト・画像生成におけるモデルの内部表現が,人間にとって意味のある意味情報を含むかどうかを検討する。
そこで我々は、オブジェクトのセマンティック属性を予測し、これらの予測を人間のアノテーションに対して評価するシンプルな回帰層を用いて、安定拡散の探索を行う。
驚くべきことに、この成功は、逆拡散プロセスではなく、CLIPで発生したテキストエンコーディングに起因する可能性がある。
特定の意味属性の群は、平均値と明らかに異なる復号精度を持ち、したがって異なる度合いで表されることを示す。
最後に、逆拡散過程において、属性が互いに曖昧になりにくくなり、さらにCLIPにおけるオブジェクト属性の最も強い意味表現を示す。
そこで我々は,個別に訓練されたCLIP視覚言語モデルが人間のような意味表現を決定するものであり,拡散過程が視覚的デコーダの役割を担っていると結論付けた。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - Unsupervised Semantic Correspondence Using Stable Diffusion [27.355330079806027]
我々は,この意味的知識を拡散モデル内で活用し,意味的対応を見いだせることを示す。
我々はこれらのモデルの迅速な埋め込みを最適化し、関心のある領域に最大限の注意を払う。
我々は、PF-Willow、CUB-200、SPair-71kデータセットにおいて、既存の弱い、または教師なしの手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T21:34:34Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Contextual Semantic Interpretability [16.18912769522768]
コンテキストをキャプチャするセマンティックボトルネックを調べます。
属性を解釈可能なスパースグループに集約する2層セマンティックボトルネックを使用する。
本モデルでは,Flickr画像の実際のテストセットに適用した場合,非解釈ベースラインと同程度の精度で予測を行う。
論文 参考訳(メタデータ) (2020-09-18T09:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。