論文の概要: Controlling the Output of a Generative Model by Latent Feature Vector
Shifting
- arxiv url: http://arxiv.org/abs/2311.08850v2
- Date: Mon, 26 Feb 2024 19:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:48:42.087163
- Title: Controlling the Output of a Generative Model by Latent Feature Vector
Shifting
- Title(参考訳): 潜在特徴ベクトルシフトによる生成モデルの出力制御
- Authors: R\'obert Belanec, Peter Lacko, Krist\'ina Malinovsk\'a
- Abstract要約: 制御された出力画像修正のための遅延ベクトルシフトのための新しい手法を提案する。
提案手法では,リアルな人間の顔の画像を生成するStyleGAN3の事前学習モデルを用いている。
我々の潜在特徴シフト器は、生成モデルの潜在ベクトルを特定の特徴方向にシフトさせるタスクを備えたニューラルネットワークモデルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art generative models (e.g. StyleGAN3 \cite{karras2021alias})
often generate photorealistic images based on vectors sampled from their latent
space. However, the ability to control the output is limited. Here we present
our novel method for latent vector shifting for controlled output image
modification utilizing semantic features of the generated images. In our
approach we use a pre-trained model of StyleGAN3 that generates images of
realistic human faces in relatively high resolution. We complement the
generative model with a convolutional neural network classifier, namely
ResNet34, trained to classify the generated images with binary facial features
from the CelebA dataset. Our latent feature shifter is a neural network model
with a task to shift the latent vectors of a generative model into a specified
feature direction. We have trained latent feature shifter for multiple facial
features, and outperformed our baseline method in the number of generated
images with the desired feature. To train our latent feature shifter neural
network, we have designed a dataset of pairs of latent vectors with and without
a certain feature. Based on the evaluation, we conclude that our latent feature
shifter approach was successful in the controlled generation of the StyleGAN3
generator.
- Abstract(参考訳): 最先端生成モデル(例えばstylegan3 \cite{karras2021alias})は、しばしば潜在空間からサンプリングされたベクトルに基づいてフォトリアリスティックな画像を生成する。
しかし、出力を制御する能力は限られている。
本稿では,生成画像の意味的特徴を利用した制御出力画像修正のための潜在ベクトルシフト手法を提案する。
提案手法では,比較的高解像度で現実的な人間の顔の画像を生成するStyleGAN3の事前学習モデルを用いる。
本稿では,生成した画像をcelebaデータセットからバイナリな顔特徴で分類するように訓練した畳み込みニューラルネットワーク分類器resnet34を用いて生成モデルを補完する。
我々の潜在特徴シフト器は、生成モデルの潜在ベクトルを特定の特徴方向にシフトさせるタスクを備えたニューラルネットワークモデルである。
我々は,複数の顔特徴に対して潜在機能シフタを訓練し,所望の機能を持つ生成画像数においてベースライン法を上回った。
潜在機能シフターニューラルネットワークをトレーニングするために、特定の特徴の有無に関わらず、潜在ベクトルのペアのデータセットを設計しました。
評価の結果,我々は,StyleGAN3ジェネレータの制御生成において,潜在機能シフト器のアプローチが成功したと結論した。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - How to Trace Latent Generative Model Generated Images without Artificial Watermark? [88.04880564539836]
潜在生成モデルによって生成された画像に関する潜在的な誤用に関する懸念が持ち上がっている。
検査されたモデルの生成された画像をトレースするために,レイトタントトラッカーと呼ばれる潜時反転に基づく手法を提案する。
提案手法は,検査したモデルと他の画像から生成された画像とを高精度かつ効率的に識別できることを示す。
論文 参考訳(メタデータ) (2024-05-22T05:33:47Z) - SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation [1.7056768055368383]
本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-30T08:15:18Z) - 3D Generative Model Latent Disentanglement via Local Eigenprojection [13.713373496487012]
本稿では,3次元頭部および体メッシュの異なるニューラルネットワークに基づく生成モデルに対するスペクトル幾何学に基づく新しい損失関数を提案する。
実験結果から,我々の局所固有射影不整形(LED)モデルでは,最先端技術に対する不整形が改善されていることがわかった。
論文 参考訳(メタデータ) (2023-02-24T18:19:49Z) - 3DShape2VecSet: A 3D Shape Representation for Neural Fields and
Generative Diffusion Models [42.928400751670935]
3DShape2VecSetは、生成拡散モデルのために設計されたニューラルネットワークのための新しい形状表現である。
その結果,3次元形状符号化および3次元形状生成モデルタスクの性能が向上した。
論文 参考訳(メタデータ) (2023-01-26T22:23:03Z) - Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。
提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。
本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2022-08-26T10:05:39Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。