論文の概要: TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable
Facial Editing
- arxiv url: http://arxiv.org/abs/2203.17266v1
- Date: Thu, 31 Mar 2022 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 14:13:56.739892
- Title: TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable
Facial Editing
- Title(参考訳): TransEditor:高い制御が可能な顔編集のためのトランスフォーマーベースのデュアルスペースGAN
- Authors: Yanbo Xu, Yueqin Yin, Liming Jiang, Qianyi Wu, Chengyao Zheng, Chen
Change Loy, Bo Dai, Wayne Wu
- Abstract要約: 本稿では、より制御しやすい編集を実現するために、デュアルスペースGANにおけるインタラクションを強化する新しいトランスフォーマーベースのフレームワークであるTransEditorを提案する。
画像品質と編集能力において提案するフレームワークの優位性を示す実験により,高い制御性を有する顔編集におけるTransEditorの有効性が示唆された。
- 参考スコア(独自算出の注目度): 110.82128064489237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances like StyleGAN have promoted the growth of controllable facial
editing. To address its core challenge of attribute decoupling in a single
latent space, attempts have been made to adopt dual-space GAN for better
disentanglement of style and content representations. Nonetheless, these
methods are still incompetent to obtain plausible editing results with high
controllability, especially for complicated attributes. In this study, we
highlight the importance of interaction in a dual-space GAN for more
controllable editing. We propose TransEditor, a novel Transformer-based
framework to enhance such interaction. Besides, we develop a new dual-space
editing and inversion strategy to provide additional editing flexibility.
Extensive experiments demonstrate the superiority of the proposed framework in
image quality and editing capability, suggesting the effectiveness of
TransEditor for highly controllable facial editing.
- Abstract(参考訳): StyleGANのような最近の進歩は、制御可能な顔編集の成長を促進している。
1つの潜在空間における属性疎結合のコア課題に対処するため、スタイルとコンテンツ表現の整合性を改善するためにデュアルスペースGANを採用する試みがなされている。
それにもかかわらず、これらの手法は、特に複雑な属性に対して、高い制御性を持つ妥当な編集結果を得るには相変わらず不適である。
本研究では,より制御可能な編集のために,二重空間ganにおける相互作用の重要性を強調する。
本稿では,トランスフォーマーをベースとした新しいフレームワークであるTransEditorを提案する。
さらに,新たなデュアルスペース編集およびインバージョン戦略を開発し,編集の柔軟性を高めた。
画像品質と編集能力において提案するフレームワークの優位性を実証し,高い制御性を有する顔編集におけるTransEditorの有効性を示唆した。
関連論文リスト
- Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing [3.58736715327935]
本稿では,w-latentとF-latentの両方で編集できる新しい方法であるStyleFeatureEditorを紹介する。
また、Fレイテンシーを正確に編集するためのモデルをトレーニングするために特別に設計された新しいトレーニングパイプラインも提示する。
提案手法は最先端の符号化手法と比較し, モデルが復元品質の点で優れていることを示す。
論文 参考訳(メタデータ) (2024-06-15T11:28:32Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in
Image Editing via Hypernetworks [5.9189325968909365]
本稿では,ハイパーネットワークによって生成される重み係数を用いて,事前学習したStyleGAN2ジェネレータの重み付けを行うHyperEditorという画像編集手法を提案する。
CLIPのクロスモーダルな画像テキストセマンティックアライメントによってガイドされたこの革新的なアプローチは、真の属性編集とクロスドメインスタイルの転送を同時に実現できる。
論文 参考訳(メタデータ) (2023-12-21T02:39:53Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - What Decreases Editing Capability? Domain-Specific Hybrid Refinement for
Improved GAN Inversion [3.9041061259639136]
インバージョン法は、埋め込み潜時符号のインバージョンと編集結果を洗練するために、ジェネレータに高次情報を追加することに重点を置いている。
重要な問題は、インバージョン結果の精細化であり、編集能力の劣化を避けることである。
本稿では,2つの主流改良技術の利点と欠点を生かしたドメイン特化ハイブリッドリファインメントについて紹介する。
論文 参考訳(メタデータ) (2023-01-28T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。