論文の概要: Color encoding in Latent Space of Stable Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.09477v1
- Date: Wed, 10 Dec 2025 09:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.473104
- Title: Color encoding in Latent Space of Stable Diffusion Models
- Title(参考訳): 安定拡散モデルの潜在空間における色符号化
- Authors: Guillem Arias, Ariadna Solà, Martí Armengod, Maria Vanrell,
- Abstract要約: この研究は、安定拡散における潜在表現の体系的解析を通じて、生成モデルにおいて色がどのように符号化されるかを研究する。
以上の結果から,安定拡散の潜伏空間は,効率的な符号化表現と整合した解釈可能な構造を示すことが示唆された。
- 参考スコア(独自算出の注目度): 0.05599792629509228
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advances in diffusion-based generative models have achieved remarkable visual fidelity, yet a detailed understanding of how specific perceptual attributes - such as color and shape - are internally represented remains limited. This work explores how color is encoded in a generative model through a systematic analysis of the latent representations in Stable Diffusion. Through controlled synthetic datasets, principal component analysis (PCA) and similarity metrics, we reveal that color information is encoded along circular, opponent axes predominantly captured in latent channels c_3 and c_4, whereas intensity and shape are primarily represented in channels c_1 and c_2. Our findings indicate that the latent space of Stable Diffusion exhibits an interpretable structure aligned with a efficient coding representation. These insights provide a foundation for future work in model understanding, editing applications, and the design of more disentangled generative frameworks.
- Abstract(参考訳): 拡散に基づく生成モデルの最近の進歩は目覚しい視覚的忠実さを達成しているが、色や形状などの知覚的属性が内部的にどのように表現されるかの詳細な理解は依然として限られている。
この研究は、安定拡散における潜在表現の体系的解析を通じて、生成モデルにおいて色がどのように符号化されるかを研究する。
制御された合成データセット、主成分分析(PCA)、類似度測定により、色情報は円に沿って符号化され、反対軸は主に潜伏チャネルc_3とc_4で捕捉されるが、強度と形状は主としてチャネルc_1とc_2で表現される。
以上の結果から,安定拡散の潜伏空間は,効率的な符号化表現と整合した解釈可能な構造を示すことが示唆された。
これらの洞察は、モデル理解、アプリケーションの編集、より不整合な生成フレームワークの設計における将来の研究の基盤となる。
関連論文リスト
- Latent Diffusion Model without Variational Autoencoder [78.34722551463223]
SVGは視覚生成のための変分オートエンコーダを持たない新しい潜伏拡散モデルである。
凍結したDINO機能を利用して、明確な意味的識別性を持つ特徴空間を構築する。
迅速な拡散訓練を可能にし、数ステップのサンプリングをサポートし、生成品質を向上させる。
論文 参考訳(メタデータ) (2025-10-17T04:17:44Z) - Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies [2.1261727383260043]
表現的類似性とノルムを用いて、人気のある安定拡散モデルを分析する。
その結果,(1)中間表現に学習された位置埋め込みの存在,(2)高相似コーナーアーティファクト,(3)異常な高ノルムアーティファクトの3つの現象が明らかになった。
論文 参考訳(メタデータ) (2025-04-09T16:26:26Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - Color Alignment in Diffusion [29.15171578869268]
拡散モデルは視覚的に魅力的な画像の合成において非常に有望である。
所定の色パターン内の拡散モデルにおける生成過程を限定する新しい色アライメントアルゴリズムを提案する。
その結果,色画素のコンディショニングと制御における最先端性能を,オンパー生成品質と多様性を維持しながら実証した。
論文 参考訳(メタデータ) (2025-03-09T20:02:52Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Navigating the Structured What-If Spaces: Counterfactual Generation via
Structured Diffusion [20.20945739504847]
本稿では,構造データ中の反現実的説明を生成するために拡散を利用した最初のプラグアンドプレイフレームワークであるStructured Counterfactual diffuser(SCD)を紹介する。
実験の結果, 既存の最先端技術と比較して高い妥当性を示すだけでなく, 近接性や多様性も著しく向上していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T07:05:21Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - Joint Intensity-Gradient Guided Generative Modeling for Colorization [16.89777347891486]
本稿では,自動着色問題を解決するための反復生成モデルを提案する。
データ忠実度項における共同強度勾配制約は、生成モデル内の自由度を制限するために提案される。
実験により、定量的比較やユーザ研究において、システムは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-28T07:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。