論文の概要: Color encoding in Latent Space of Stable Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.09477v1
- Date: Wed, 10 Dec 2025 09:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.473104
- Title: Color encoding in Latent Space of Stable Diffusion Models
- Title(参考訳): 安定拡散モデルの潜在空間における色符号化
- Authors: Guillem Arias, Ariadna Solà, Martí Armengod, Maria Vanrell,
- Abstract要約: この研究は、安定拡散における潜在表現の体系的解析を通じて、生成モデルにおいて色がどのように符号化されるかを研究する。
以上の結果から,安定拡散の潜伏空間は,効率的な符号化表現と整合した解釈可能な構造を示すことが示唆された。
- 参考スコア(独自算出の注目度): 0.05599792629509228
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advances in diffusion-based generative models have achieved remarkable visual fidelity, yet a detailed understanding of how specific perceptual attributes - such as color and shape - are internally represented remains limited. This work explores how color is encoded in a generative model through a systematic analysis of the latent representations in Stable Diffusion. Through controlled synthetic datasets, principal component analysis (PCA) and similarity metrics, we reveal that color information is encoded along circular, opponent axes predominantly captured in latent channels c_3 and c_4, whereas intensity and shape are primarily represented in channels c_1 and c_2. Our findings indicate that the latent space of Stable Diffusion exhibits an interpretable structure aligned with a efficient coding representation. These insights provide a foundation for future work in model understanding, editing applications, and the design of more disentangled generative frameworks.
- Abstract(参考訳): 拡散に基づく生成モデルの最近の進歩は目覚しい視覚的忠実さを達成しているが、色や形状などの知覚的属性が内部的にどのように表現されるかの詳細な理解は依然として限られている。
この研究は、安定拡散における潜在表現の体系的解析を通じて、生成モデルにおいて色がどのように符号化されるかを研究する。
制御された合成データセット、主成分分析(PCA)、類似度測定により、色情報は円に沿って符号化され、反対軸は主に潜伏チャネルc_3とc_4で捕捉されるが、強度と形状は主としてチャネルc_1とc_2で表現される。
以上の結果から,安定拡散の潜伏空間は,効率的な符号化表現と整合した解釈可能な構造を示すことが示唆された。
これらの洞察は、モデル理解、アプリケーションの編集、より不整合な生成フレームワークの設計における将来の研究の基盤となる。
関連論文リスト
- Color Matters: Demosaicing-Guided Color Correlation Training for Generalizable AI-Generated Image Detection [10.845173807400533]
本稿では,AI生成画像検出のためのデモサイジング誘導色相関トレーニングフレームワークを提案する。
自己教師付きU-Netは、与えられたチャネルから欠落したチャネルの条件分布をモデル化するように訓練される。
理論的解析の結果,DCCTは画像とAI生成画像間の色相関特性の分布特性の証明可能な差異を目標としていることが明らかとなった。
論文 参考訳(メタデータ) (2026-01-30T10:01:49Z) - Latent Diffusion Model without Variational Autoencoder [78.34722551463223]
SVGは視覚生成のための変分オートエンコーダを持たない新しい潜伏拡散モデルである。
凍結したDINO機能を利用して、明確な意味的識別性を持つ特徴空間を構築する。
迅速な拡散訓練を可能にし、数ステップのサンプリングをサポートし、生成品質を向上させる。
論文 参考訳(メタデータ) (2025-10-17T04:17:44Z) - Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies [2.1261727383260043]
表現的類似性とノルムを用いて、人気のある安定拡散モデルを分析する。
その結果,(1)中間表現に学習された位置埋め込みの存在,(2)高相似コーナーアーティファクト,(3)異常な高ノルムアーティファクトの3つの現象が明らかになった。
論文 参考訳(メタデータ) (2025-04-09T16:26:26Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - Color Alignment in Diffusion [29.15171578869268]
拡散モデルは視覚的に魅力的な画像の合成において非常に有望である。
所定の色パターン内の拡散モデルにおける生成過程を限定する新しい色アライメントアルゴリズムを提案する。
その結果,色画素のコンディショニングと制御における最先端性能を,オンパー生成品質と多様性を維持しながら実証した。
論文 参考訳(メタデータ) (2025-03-09T20:02:52Z) - Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAI [59.96044730204345]
微分自由拡散多様体制約勾配(FreeMCG)を導入する。
FreeMCGは、与えられたニューラルネットワークの説明可能性を改善する基盤として機能する。
提案手法は,XAIツールが期待する本質性を保ちながら,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:15:14Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Navigating the Structured What-If Spaces: Counterfactual Generation via
Structured Diffusion [20.20945739504847]
本稿では,構造データ中の反現実的説明を生成するために拡散を利用した最初のプラグアンドプレイフレームワークであるStructured Counterfactual diffuser(SCD)を紹介する。
実験の結果, 既存の最先端技術と比較して高い妥当性を示すだけでなく, 近接性や多様性も著しく向上していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T07:05:21Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Joint Intensity-Gradient Guided Generative Modeling for Colorization [16.89777347891486]
本稿では,自動着色問題を解決するための反復生成モデルを提案する。
データ忠実度項における共同強度勾配制約は、生成モデル内の自由度を制限するために提案される。
実験により、定量的比較やユーザ研究において、システムは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-28T07:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。