論文の概要: Interpreting the Weight Space of Customized Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.09413v3
- Date: Fri, 22 Nov 2024 05:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:39.833304
- Title: Interpreting the Weight Space of Customized Diffusion Models
- Title(参考訳): カスタマイズ拡散モデルにおける重み空間の解釈
- Authors: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman,
- Abstract要約: 微調整拡散モデルの重み空間は、新しいモデルを生成する解釈可能なメタラテント空間として振る舞うことができることを示す。
この結果から,微調整拡散モデルの重み空間は,新しいモデルを生成する解釈可能なメタラテント空間として振る舞うことが示唆された。
- 参考スコア(独自算出の注目度): 79.14866339932199
- License:
- Abstract: We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space that result in new diffusion models -- sampling, editing, and inversion. First, sampling a set of weights from this space results in a new model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard), resulting in a new model with the original identity edited. Finally, we show that inverting a single image into this space encodes a realistic identity into a model, even if the input image is out of distribution (e.g., a painting). We further find that these linear properties of the diffusion model weight space extend to other visual concepts. Our results indicate that the weight space of fine-tuned diffusion models can behave as an interpretable meta-latent space producing new models.
- Abstract(参考訳): 本研究では,多種多様な拡散モデルによる重みの空間について検討する。
私たちは6万以上のモデルのデータセットを作成して、このスペースをポップアップさせ、それぞれが異なる人の視覚的アイデンティティを挿入するために微調整されたベースモデルです。
これらの重みの基底多様体を部分空間としてモデル化し、重み2重みと呼ぶ。
我々は、新しい拡散モデル(サンプリング、編集、反転)をもたらすこの空間の3つの即時応用を実証する。
まず、この空間から重みの集合をサンプリングすると、新しいアイデンティティーをコードする新しいモデルが得られる。
次に、この空間における線形方向は、アイデンティティのセマンティックな編集(例えば、ひげを追加する)に対応し、結果として元のアイデンティティを編集した新しいモデルが得られる。
最後に、入力画像が分布外である場合でも、この空間に単一の画像を反転させることで、現実的なアイデンティティをモデルに符号化する(例えば、絵画)。
さらに、拡散モデル重み空間のこれらの線型的性質が、他の視覚的概念に拡張されることが分かる。
この結果から,微調整拡散モデルの重み空間は,新しいモデルを生成する解釈可能なメタラテント空間として振る舞うことが示唆された。
関連論文リスト
- SliderSpace: Decomposing the Visual Capabilities of Diffusion Models [50.82362500995365]
SliderSpaceは拡散モデルの視覚的能力を自動分解するフレームワークである。
単一のテキストプロンプトから複数の解釈可能かつ多様な方向を同時に検出する。
本手法は,ベースラインに比べて多様性があり,有用である。
論文 参考訳(メタデータ) (2025-02-03T18:59:55Z) - Universal New Physics Latent Space [0.0]
我々は、標準モデルプロセスと標準モデル以外の様々な理論から派生したデータを統一表現(ラテント)空間にマッピングする機械学習手法を開発した。
本手法は, LHCにおける新しい物理の3つの例に適用し, LHCの表現法に従ってモデルがクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2024-07-29T18:00:00Z) - Isometric Representation Learning for Disentangled Latent Space of Diffusion Models [17.64488229224982]
等方的拡散(Isometric Diffusion)を提案し、幾何正則化器を備えた拡散モデルを用いてモデルを誘導し、トレーニングデータ多様体の幾何学的音響潜在空間を学習する。
このアプローチにより拡散モデルはより不整合な潜在空間を学習することができ、より滑らかで正確に逆転し、潜在空間に直接属性を制御できるようになる。
論文 参考訳(メタデータ) (2024-07-16T07:36:01Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - OCD: Learning to Overfit with Conditional Diffusion Models [95.1828574518325]
入力サンプルxに重みを条件付けした動的モデルを提案する。
基本モデルを x とそのラベル y 上で微調整することで得られる重みに一致することを学習する。
論文 参考訳(メタデータ) (2022-10-02T09:42:47Z) - Tensor-based Subspace Factorization for StyleGAN [1.1470070927586016]
$tau$GANは、生成モデルの潜在空間をモデル化するためのテンソルベースのメソッドである。
構造的表情データベースとしてBU-3DFEを用いてFFHQで訓練したStyleGANに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-08T15:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。