論文の概要: HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in
Image Editing via Hypernetworks
- arxiv url: http://arxiv.org/abs/2312.13537v1
- Date: Thu, 21 Dec 2023 02:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 16:03:23.694401
- Title: HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in
Image Editing via Hypernetworks
- Title(参考訳): HyperEditor: Hypernetworksによる画像編集における認証性とクロスドメイン機能の実現
- Authors: Hai Zhang, Chunwei Wu, Guitao Cao, Hailing Wang, Wenming Cao
- Abstract要約: 本稿では,ハイパーネットワークによって生成される重み係数を用いて,事前学習したStyleGAN2ジェネレータの重み付けを行うHyperEditorという画像編集手法を提案する。
CLIPのクロスモーダルな画像テキストセマンティックアライメントによってガイドされたこの革新的なアプローチは、真の属性編集とクロスドメインスタイルの転送を同時に実現できる。
- 参考スコア(独自算出の注目度): 5.9189325968909365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing real images authentically while also achieving cross-domain editing
remains a challenge. Recent studies have focused on converting real images into
latent codes and accomplishing image editing by manipulating these codes.
However, merely manipulating the latent codes would constrain the edited images
to the generator's image domain, hindering the attainment of diverse editing
goals. In response, we propose an innovative image editing method called
HyperEditor, which utilizes weight factors generated by hypernetworks to
reassign the weights of the pre-trained StyleGAN2's generator. Guided by CLIP's
cross-modal image-text semantic alignment, this innovative approach enables us
to simultaneously accomplish authentic attribute editing and cross-domain style
transfer, a capability not realized in previous methods. Additionally, we
ascertain that modifying only the weights of specific layers in the generator
can yield an equivalent editing result. Therefore, we introduce an adaptive
layer selector, enabling our hypernetworks to autonomously identify the layers
requiring output weight factors, which can further improve our hypernetworks'
efficiency. Extensive experiments on abundant challenging datasets demonstrate
the effectiveness of our method.
- Abstract(参考訳): 実画像の編集とクロスドメイン編集は依然として課題である。
近年の研究では、実際の画像を潜在コードに変換し、これらのコードを操作することで画像編集を実現することに焦点を当てている。
しかし、潜在コードを操作するだけで、編集された画像はジェネレータのイメージドメインに制限され、多様な編集目標の達成が妨げられる。
そこで我々は,ハイパーネットワークによって生成される重み係数を用いて,事前学習したStyleGAN2ジェネレータの重み付けを行うHyperEditorという画像編集手法を提案する。
CLIPのクロスモーダルな画像-テキストセマンティックアライメントによってガイドされたこの革新的なアプローチは、従来の手法では実現されていなかった、真の属性編集とドメイン間のスタイル転送を同時に実現できる。
さらに、ジェネレータ内の特定のレイヤの重みだけを変更するだけで、同等な編集結果が得られることを確認する。
そこで我々は,ハイパーネットワークが出力重み係数を必要とする層を自律的に識別できる適応層セレクタを導入することで,ハイパーネットワークの効率をさらに向上させることができる。
豊富に挑戦するデータセットに関する広範な実験により,本手法の有効性が示された。
関連論文リスト
- Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Style Transformer for Image Inversion and Editing [35.45674653596084]
既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。
本稿では,事前学習したStyleGANに対して,トランスフォーマーを用いた画像インバージョンと編集モデルを提案する。
提案モデルでは、CNNエンコーダを用いて、キーと値としてマルチスケールの画像特徴を提供する。
論文 参考訳(メタデータ) (2022-03-15T14:16:57Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z) - Pivotal Tuning for Latent-based Editing of Real Images [40.22151052441958]
事前訓練されたStyleGANの生成力を利用する高度な顔編集技術が提案されている。
このような方法で画像の編集を成功させるためには、最初に訓練済みのジェネレータのドメインに画像を投影(あるいは反転)する必要がある。
これは、ジェネレータの領域外にある顔に対して、ID保存の顔潜時空間編集を適用することは依然として困難であることを意味する。
論文 参考訳(メタデータ) (2021-06-10T13:47:59Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。