論文の概要: GlassesGAN: Eyewear Personalization using Synthetic Appearance Discovery
and Targeted Subspace Modeling
- arxiv url: http://arxiv.org/abs/2210.14145v1
- Date: Mon, 24 Oct 2022 16:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:41:40.783223
- Title: GlassesGAN: Eyewear Personalization using Synthetic Appearance Discovery
and Targeted Subspace Modeling
- Title(参考訳): glassesgan: 合成外観発見とターゲット部分空間モデリングを用いた眼鏡のパーソナライズ
- Authors: Richard Plesh, Peter Peer, Vitomir \v{S}truc
- Abstract要約: GlassesGANは、画像の品質、リアリズムの編集、そして連続的なマルチスタイルの編集機能という観点で、新しい標準を設定している。
また,GlassesGANは,視線に対する写実的で多面的な編集を実現し,競合他社と良好に比較できることを示した。
- 参考スコア(独自算出の注目度): 1.217503190366097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GlassesGAN, a novel image editing framework for custom design of
glasses, that sets a new standard in terms of image quality, edit realism, and
continuous multi-style edit capability. To facilitate the editing process with
GlassesGAN, we propose a Targeted Subspace Modelling (TSM) procedure that,
based on a novel mechanism for (synthetic) appearance discovery in the latent
space of a pre-trained GAN generator, constructs an eyeglasses-specific
(latent) subspace that the editing framework can utilize. To improve the
reliability of our learned edits, we also introduce an appearance-constrained
subspace initialization (SI) technique able to center the latent representation
of a given input image in the well-defined part of the constructed subspace. We
test GlassesGAN on three diverse datasets (CelebA-HQ, SiblingsDB-HQf, and
MetFaces) and compare it against three state-of-the-art competitors, i.e.,
InterfaceGAN, GANSpace, and MaskGAN. Our experimental results show that
GlassesGAN achieves photo-realistic, multi-style edits to eyeglasses while
comparing favorably to its competitors. The source code is made freely
available.
- Abstract(参考訳): 本稿では,メガネのカスタムデザインのための新しい画像編集フレームワークであるglassganについて紹介する。
そこで,GlassesGAN を用いた編集プロセスを容易にするために,GAN 生成装置の潜時空間における(合成)外観発見機構を基盤として,編集フレームワークが利用できる眼鏡専用(潜時)サブスペースを構築することを目的とした,TSM (Targeted Subspace Modelling) 手法を提案する。
学習した編集の信頼性を向上させるために,我々は,構築された部分空間のよく定義された部分において,与えられた入力画像の潜在表現を中心化できる外観制約付き部分空間初期化(si)技術も導入する。
我々はGlassesGANを3つの多様なデータセット(CelebA-HQ、SiblingsDB-HQf、MetFaces)でテストし、現在最先端の競合であるInterfaceGAN、GANSpace、MaskGANと比較する。
実験結果から,GlassesGANは眼鏡のリアルなマルチスタイル編集を実現し,競合製品と比較した。
ソースコードは無料で入手できる。
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - Mesh deformation-based single-view 3D reconstruction of thin eyeglasses frames with differentiable rendering [6.693246356011004]
1枚のRGB画像から高精度3次元フルフレーム眼鏡モデルを復元するためのメッシュ変形に基づく最初の再構成フレームワークを提案する。
合成データセットと実画像の両方の実験結果から,提案アルゴリズムの有効性が示された。
論文 参考訳(メタデータ) (2024-08-10T01:40:57Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing [61.014328598895524]
textbfMaTe3D:マスク誘導型テキストベースの3D画像編集を提案する。
SDFに基づく新しい3Dジェネレータは,SDFと密度の整合性損失により局所的およびグローバルな表現を学習する。
幾何とテクスチャの条件蒸留(CDGT)は視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを避ける。
論文 参考訳(メタデータ) (2023-12-12T03:04:08Z) - VIVE3D: Viewpoint-Independent Video Editing using 3D-Aware GANs [45.31397724415891]
画像ベースの3D GANをビデオ編集に拡張する新しいアプローチであるVIVE3Dを紹介する。
我々は3D GANの固有の特性によって実現された頭部の新規なビューを示す編集を初めて披露する。
論文 参考訳(メタデータ) (2023-03-28T11:15:57Z) - IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware
Portrait Synthesis [38.517819699560945]
システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構築のために最適化するハイブリッドGANインバージョンアプローチ,(3)カノニカルビューにおけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。
論文 参考訳(メタデータ) (2022-05-31T03:35:44Z) - SemanticStyleGAN: Learning Compositional Generative Priors for
Controllable Image Synthesis and Editing [35.02841064647306]
StyleGANは、画像合成と編集の下流タスクに有望な事前モデルを提供する。
本稿では,ジェネレータが局所的な意味部分を個別にモデル化し,構成的に画像を合成するように訓練されるSemanticStyleGANを提案する。
論文 参考訳(メタデータ) (2021-12-04T04:17:11Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。