論文の概要: Interpreting the Weight Space of Customized Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.09413v2
- Date: Wed, 17 Jul 2024 18:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:22:33.578291
- Title: Interpreting the Weight Space of Customized Diffusion Models
- Title(参考訳): カスタマイズ拡散モデルにおける重み空間の解釈
- Authors: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman,
- Abstract要約: 本研究では,多種多様な拡散モデルによる重みの空間について検討する。
私たちは6万以上のモデルのデータセットを作成して、このスペースをポップアップさせ、それぞれが異なる人の視覚的アイデンティティを挿入するために微調整されたベースモデルです。
我々は、この空間の3つの即時応用、サンプリング、編集、反転を実演する。
- 参考スコア(独自算出の注目度): 79.14866339932199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space -- sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.
- Abstract(参考訳): 本研究では,多種多様な拡散モデルによる重みの空間について検討する。
私たちは6万以上のモデルのデータセットを作成して、このスペースをポップアップさせ、それぞれが異なる人の視覚的アイデンティティを挿入するために微調整されたベースモデルです。
これらの重みの基底多様体を部分空間としてモデル化し、重み2重みと呼ぶ。
我々は、この空間の3つの即時応用、サンプリング、編集、反転を実演する。
まず、空間の各点が恒等式に対応するので、そこから重みの集合をサンプリングすると、新しい恒等式を符号化するモデルが得られる。
次に、この空間における線形方向は、アイデンティティのセマンティックな編集(例えば、ひげを加える)に対応する。
これらの編集は、生成されたサンプルにまたがって出現し続ける。
最後に、入力画像が分布外である場合でも、この空間に単一のイメージを反転させることで、現実的なアイデンティティが再構築されることを示す(例えば、絵画)。
この結果は、微調整拡散モデルの重み空間が、解釈可能な潜在性空間として振る舞うことを示唆している。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Universal New Physics Latent Space [0.0]
我々は、標準モデルプロセスと標準モデル以外の様々な理論から派生したデータを統一表現(ラテント)空間にマッピングする機械学習手法を開発した。
本手法は, LHCにおける新しい物理の3つの例に適用し, LHCの表現法に従ってモデルがクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2024-07-29T18:00:00Z) - Isometric Representation Learning for Disentangled Latent Space of Diffusion Models [17.64488229224982]
等方的拡散(Isometric Diffusion)を提案し、幾何正則化器を備えた拡散モデルを用いてモデルを誘導し、トレーニングデータ多様体の幾何学的音響潜在空間を学習する。
このアプローチにより拡散モデルはより不整合な潜在空間を学習することができ、より滑らかで正確に逆転し、潜在空間に直接属性を制御できるようになる。
論文 参考訳(メタデータ) (2024-07-16T07:36:01Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - OCD: Learning to Overfit with Conditional Diffusion Models [95.1828574518325]
入力サンプルxに重みを条件付けした動的モデルを提案する。
基本モデルを x とそのラベル y 上で微調整することで得られる重みに一致することを学習する。
論文 参考訳(メタデータ) (2022-10-02T09:42:47Z) - Tensor-based Subspace Factorization for StyleGAN [1.1470070927586016]
$tau$GANは、生成モデルの潜在空間をモデル化するためのテンソルベースのメソッドである。
構造的表情データベースとしてBU-3DFEを用いてFFHQで訓練したStyleGANに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-08T15:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。