論文の概要: StyleAutoEncoder for manipulating image attributes using pre-trained StyleGAN
- arxiv url: http://arxiv.org/abs/2412.20164v1
- Date: Sat, 28 Dec 2024 14:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:12.505846
- Title: StyleAutoEncoder for manipulating image attributes using pre-trained StyleGAN
- Title(参考訳): 事前学習型StyleGANを用いた画像属性操作のためのStyleAutoEncoder
- Authors: Andrzej Bedychaj, Jacek Tabor, Marek Śmieja,
- Abstract要約: StyleAutoEncoderは、事前トレーニングされた生成モデルのプラグインである。
要求された画像の属性を操作することができる。
これは少なくとも、最先端のアルゴリズムと同様に画像属性を操作するのに効果的である。
- 参考スコア(独自算出の注目度): 8.71029643563855
- License:
- Abstract: Deep conditional generative models are excellent tools for creating high-quality images and editing their attributes. However, training modern generative models from scratch is very expensive and requires large computational resources. In this paper, we introduce StyleAutoEncoder (StyleAE), a lightweight AutoEncoder module, which works as a plugin for pre-trained generative models and allows for manipulating the requested attributes of images. The proposed method offers a cost-effective solution for training deep generative models with limited computational resources, making it a promising technique for a wide range of applications. We evaluate StyleAutoEncoder by combining it with StyleGAN, which is currently one of the top generative models. Our experiments demonstrate that StyleAutoEncoder is at least as effective in manipulating image attributes as the state-of-the-art algorithms based on invertible normalizing flows. However, it is simpler, faster, and gives more freedom in designing neural
- Abstract(参考訳): 深い条件生成モデルは、高品質な画像を作成し、それらの属性を編集するための優れたツールである。
しかし、現代の生成モデルをゼロから訓練するのは非常に高価であり、膨大な計算資源を必要とする。
本稿では、事前学習された生成モデルのプラグインとして機能し、要求された画像の属性を操作できる軽量なAutoEncoderモジュールであるStyleAEを紹介する。
提案手法は,計算資源が限られている深層生成モデルの訓練に費用対効果があり,幅広い応用に期待できる手法である。
StyleAutoEncoderをStyleGANと組み合わせて評価する。
実験により,StyleAutoEncoderは,非可逆正規化フローに基づく最先端のアルゴリズムと同様に,画像属性の操作に有効であることが実証された。
しかし、それはシンプルで速く、神経を設計する自由を与えてくれる
関連論文リスト
- JetFormer: An Autoregressive Generative Model of Raw Images and Text [62.2573739835562]
本稿では,生データの可能性を直接最大化するために,自動回帰デコーダのみの変換器であるJetFormerを提案する。
我々は正規化フローモデルを利用して,自己回帰型マルチモーダル変換器で共同で訓練したソフトトーン画像表現を得る。
JetFormerは、最近のVQ-VAEおよびVAEベースのベースラインと競合するテキスト・画像生成品質を実現する。
論文 参考訳(メタデータ) (2024-11-29T14:14:59Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Class-Conditional self-reward mechanism for improved Text-to-Image models [1.8434042562191815]
我々は、自己回帰モデルの概念に基づいて、テキストから画像への生成AIモデルに匹敵するビジョンを導入する。
このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルによって機能する。
既存の商用および研究用テキスト・ツー・イメージ・モデルよりも60%以上優れていると評価されている。
論文 参考訳(メタデータ) (2024-05-22T09:28:43Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - Feature-Style Encoder for Style-Based GAN Inversion [1.9116784879310027]
本稿では,特徴型エンコーダ(Feature-Style encoder)と呼ばれる,GANインバージョンのための新しいアーキテクチャを提案する。
本モデルは,事前学習したスタイルベースGANモデルの潜在空間から,実画像の正確な逆変換を実現する。
エンコーダ構造のおかげで、モデルは高速で正確な画像編集を可能にする。
論文 参考訳(メタデータ) (2022-02-04T15:19:34Z) - AE-StyleGAN: Improved Training of Style-Based Auto-Encoders [21.51697087024866]
StyleGANは、近年、データ生成と操作に関して印象的な成果を上げている。
本稿では, 画像から潜伏空間への逆転過程を容易にし, 実際のデータ再構成を強制することは, より不整合な潜伏空間へと導かれるか?
本稿では,エンコーダとジェネレータをエンドツーエンドに最適化したスタイルベースのオートエンコーダをトレーニングする手法について述べる。
論文 参考訳(メタデータ) (2021-10-17T04:25:51Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。