論文の概要: Interpreting the Weight Space of Customized Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.09413v2
- Date: Wed, 17 Jul 2024 18:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:22:33.578291
- Title: Interpreting the Weight Space of Customized Diffusion Models
- Title(参考訳): カスタマイズ拡散モデルにおける重み空間の解釈
- Authors: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman,
- Abstract要約: 本研究では,多種多様な拡散モデルによる重みの空間について検討する。
私たちは6万以上のモデルのデータセットを作成して、このスペースをポップアップさせ、それぞれが異なる人の視覚的アイデンティティを挿入するために微調整されたベースモデルです。
我々は、この空間の3つの即時応用、サンプリング、編集、反転を実演する。
- 参考スコア(独自算出の注目度): 79.14866339932199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space -- sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.
- Abstract(参考訳): 本研究では,多種多様な拡散モデルによる重みの空間について検討する。
私たちは6万以上のモデルのデータセットを作成して、このスペースをポップアップさせ、それぞれが異なる人の視覚的アイデンティティを挿入するために微調整されたベースモデルです。
これらの重みの基底多様体を部分空間としてモデル化し、重み2重みと呼ぶ。
我々は、この空間の3つの即時応用、サンプリング、編集、反転を実演する。
まず、空間の各点が恒等式に対応するので、そこから重みの集合をサンプリングすると、新しい恒等式を符号化するモデルが得られる。
次に、この空間における線形方向は、アイデンティティのセマンティックな編集(例えば、ひげを加える)に対応する。
これらの編集は、生成されたサンプルにまたがって出現し続ける。
最後に、入力画像が分布外である場合でも、この空間に単一のイメージを反転させることで、現実的なアイデンティティが再構築されることを示す(例えば、絵画)。
この結果は、微調整拡散モデルの重み空間が、解釈可能な潜在性空間として振る舞うことを示唆している。
関連論文リスト
- Isometric Representation Learning for Disentangled Latent Space of Diffusion Models [17.64488229224982]
等方的拡散(Isometric Diffusion)を提案し、幾何正則化器を備えた拡散モデルを用いてモデルを誘導し、トレーニングデータ多様体の幾何学的音響潜在空間を学習する。
このアプローチにより拡散モデルはより不整合な潜在空間を学習することができ、より滑らかで正確に逆転し、潜在空間に直接属性を制御できるようになる。
論文 参考訳(メタデータ) (2024-07-16T07:36:01Z) - Explorable Mesh Deformation Subspaces from Unstructured Generative
Models [53.23510438769862]
3次元形状の深い生成モデルは、しばしば潜在的な変動を探索するために使用できる連続的な潜伏空間を特徴付ける。
本研究では,手軽に探索可能な2次元探索空間から事前学習された生成モデルのサブ空間へのマッピングを構築することで,与えられたランドマーク形状の集合間のバリエーションを探索する手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T18:53:57Z) - BLiSS: Bootstrapped Linear Shape Space [38.85525540566456]
本稿では,形状空間と対応問題の解法であるBLiSSを紹介する。
手動で登録された小さなスキャンから始めて、形状空間を充実させ、それを新しい未登録スキャンに自動的に対応させる。
BLiSSの重要な構成要素は、低次元の形状空間で欠落した詳細を捉える非線形変形モデルである。
論文 参考訳(メタデータ) (2023-09-04T18:54:56Z) - Disentangling Variational Autoencoders [0.0]
変分オートエンコーダ(VAE)は、高次元データの入力セットを低次元の潜在空間に投影する。
文献から3つの異なるVAEモデルを実装し、6万枚の手書き数字のデータセットでそれらをトレーニングする。
本稿では,復号化画像の品質と遅延空間の歪みレベルとのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-11-14T19:22:41Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - OCD: Learning to Overfit with Conditional Diffusion Models [95.1828574518325]
入力サンプルxに重みを条件付けした動的モデルを提案する。
基本モデルを x とそのラベル y 上で微調整することで得られる重みに一致することを学習する。
論文 参考訳(メタデータ) (2022-10-02T09:42:47Z) - Few Shot Generative Model Adaption via Relaxed Spatial Structural
Alignment [130.84010267004803]
限られたデータでGAN(Generative Adversarial Network)を訓練することは難しい課題である。
実現可能な解決策は、大規模なソースドメインで十分に訓練されたGANから始め、ターゲットドメインにいくつかのサンプルで適応することである。
本研究では,適応時の対象生成モデルのキャリブレーションを行うための緩和された空間構造アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T14:26:25Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - The Geometry of Deep Generative Image Models and its Applications [0.0]
generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。
これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。
潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
論文 参考訳(メタデータ) (2021-01-15T07:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。