論文の概要: Text-guided Eyeglasses Manipulation with Spatial Constraints
- arxiv url: http://arxiv.org/abs/2304.12539v1
- Date: Tue, 25 Apr 2023 03:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:09:27.022442
- Title: Text-guided Eyeglasses Manipulation with Spatial Constraints
- Title(参考訳): 空間制約付きテキスト誘導眼鏡操作
- Authors: Jiacheng Wang, Ping Liu, Jingen Liu, Wei Xu
- Abstract要約: メガネのバーチャル試着には、異なる形状とスタイルの眼鏡を物理的に試すことなく、顔画像に配置する。
両用マスクとテキストに基づいて眼鏡の形状とスタイルを制御できるテクスチャ誘導型眼鏡マニピュレーション法を提案する。
- 参考スコア(独自算出の注目度): 24.625224289729275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual try-on of eyeglasses involves placing eyeglasses of different shapes
and styles onto a face image without physically trying them on. While existing
methods have shown impressive results, the variety of eyeglasses styles is
limited and the interactions are not always intuitive or efficient. To address
these limitations, we propose a Text-guided Eyeglasses Manipulation method that
allows for control of the eyeglasses shape and style based on a binary mask and
text, respectively. Specifically, we introduce a mask encoder to extract mask
conditions and a modulation module that enables simultaneous injection of text
and mask conditions. This design allows for fine-grained control of the
eyeglasses' appearance based on both textual descriptions and spatial
constraints. Our approach includes a disentangled mapper and a decoupling
strategy that preserves irrelevant areas, resulting in better local editing. We
employ a two-stage training scheme to handle the different convergence speeds
of the various modality conditions, successfully controlling both the shape and
style of eyeglasses. Extensive comparison experiments and ablation analyses
demonstrate the effectiveness of our approach in achieving diverse eyeglasses
styles while preserving irrelevant areas.
- Abstract(参考訳): メガネのバーチャル試着には、異なる形状とスタイルの眼鏡を物理的に試すことなく、顔画像に配置する。
既存の方法は印象的な結果を示しているが、様々な眼鏡のスタイルは限られており、相互作用は常に直感的あるいは効率的であるとは限らない。
そこで本稿では,これらの制約に対処するために,バイナリマスクとテキストに基づく眼鏡形状とスタイルをそれぞれ制御可能な眼鏡操作方式を提案する。
具体的には,マスク条件を抽出するマスクエンコーダと,テキストとマスク条件を同時に注入可能な変調モジュールを提案する。
この設計により、テクスト記述と空間制約の両方に基づいて眼鏡の外観を細かく制御することができる。
提案手法は,無関係な領域を保存し,局所的な編集を向上する疎結合マッパーと疎結合戦略を含む。
様々なモーダリティ条件の異なる収束速度を扱うために2段階のトレーニングスキームを用い,眼鏡の形状とスタイルの両方をうまく制御した。
広範な比較実験とアブレーション分析により,無関係領域を保ちながら多様な眼鏡スタイルを実現するためのアプローチの有効性が示された。
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces [103.54337984566877]
拡張畳み込みを用いて、モデルパラメータを変更することなく、StyleGANの浅い層の受容場を再スケールする。
これにより、浅い層における固定サイズの小さなフィーチャを、可変解像度に対応できるより大きなものへと拡張することができる。
本手法は,多様な顔操作タスクにおいて,様々な解像度の顔入力を用いて検証する。
論文 参考訳(メタデータ) (2023-03-10T18:59:33Z) - MEGANE: Morphable Eyeglass and Avatar Network [83.65790119755053]
眼鏡の3次元合成可能な形状モデルを提案する。
曲面幾何学と体積表現を組み合わせたハイブリッド表現を用いる。
我々のアプローチは、顔と眼鏡の間の影を鋳造するなど、グローバルな光輸送効果をモデル化する。
論文 参考訳(メタデータ) (2023-02-09T18:59:49Z) - NeRFFaceEditing: Disentangled Face Editing in Neural Radiance Fields [40.543998582101146]
ニューラル放射場における幾何と外観の編集とデカップリングを可能にするNeRFFaceEditingを導入する。
提案手法では,ユーザが幾何学と外観の分離した制御を施したセマンティックマスクによる編集が可能となる。
定性的かつ定量的な評価は,既存の解や代替解と比較して,本手法の幾何学的・外見的制御能力に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-15T08:11:39Z) - GlassesGAN: Eyewear Personalization using Synthetic Appearance Discovery
and Targeted Subspace Modeling [1.217503190366097]
GlassesGANは、画像の品質、リアリズムの編集、そして連続的なマルチスタイルの編集機能という観点で、新しい標準を設定している。
また,GlassesGANは,視線に対する写実的で多面的な編集を実現し,競合他社と良好に比較できることを示した。
論文 参考訳(メタデータ) (2022-10-24T16:03:30Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Portrait Eyeglasses and Shadow Removal by Leveraging 3D Synthetic Data [19.441669467054158]
顔画像から眼鏡や鋳造影を除去する新しい枠組みを提案する。
この方法は、眼鏡と鋳造影の両方が検出され、画像から除去される、検出・削除の方法で機能する。
我々の知る限りでは、提案手法は眼鏡と鋳造影を同時に除去する最初の方法である。
論文 参考訳(メタデータ) (2022-03-20T07:14:07Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。