論文の概要: Optimizing Latent Space Directions For GAN-based Local Image Editing
- arxiv url: http://arxiv.org/abs/2111.12583v1
- Date: Wed, 24 Nov 2021 16:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 17:17:32.046985
- Title: Optimizing Latent Space Directions For GAN-based Local Image Editing
- Title(参考訳): ganに基づく局所画像編集のための潜在空間方向の最適化
- Authors: Ehsan Pajouheshgar, Tong Zhang, Sabine S\"usstrunk
- Abstract要約: 画像編集の局所性を評価するために,新たな目的関数を提案する。
我々のフレームワークであるLocally Effective Latent Space Direction (LELSD)は,任意のデータセットやGANアーキテクチャに適用可能である。
また,提案手法は高速であり,画像の編集を対話的に行うことが可能である。
- 参考スコア(独自算出の注目度): 15.118159513841874
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative Adversarial Network (GAN) based localized image editing can suffer
ambiguity between semantic attributes. We thus present a novel objective
function to evaluate the locality of an image edit. By introducing the
supervision from a pre-trained segmentation network and optimizing the
objective function, our framework, called Locally Effective Latent Space
Direction (LELSD), is applicable to any dataset and GAN architecture. Our
method is also computationally fast and exhibits a high extent of
disentanglement, which allows users to interactively perform a sequence of
edits on an image. Our experiments on both GAN-generated and real images
qualitatively demonstrate the high quality and advantages of our method.
- Abstract(参考訳): Generative Adversarial Network (GAN) ベースの局所画像編集は、意味的属性間のあいまいさを損なう可能性がある。
そこで本稿では,画像編集の局所性を評価するための新しい目的関数を提案する。
トレーニング済みセグメンテーションネットワークから監視を導入し、目的関数を最適化することにより、我々のフレームワークであるLocally Effective Latent Space Direction (LELSD)は、任意のデータセットやGANアーキテクチャに適用できる。
本手法は計算速度も高く,画像上の編集のシーケンスを対話的に実行可能にするため,高い不連続性を示す。
GAN生成画像と実画像の両方に対する実験により,提案手法の質と利点を質的に実証した。
関連論文リスト
- HyperGAN-CLIP: A Unified Framework for Domain Adaptation, Image Synthesis and Manipulation [21.669044026456557]
GAN(Generative Adversarial Networks)は、非常にリアルな画像を生成する際、顕著な能力を示した。
本稿では,CLIP空間をハイパーネットワーク経由で統合することにより,事前学習したStyleGANの機能を大幅に拡張する新しいフレームワークを提案する。
提案手法は,テキスト固有のトレーニングデータを必要としないテキスト誘導画像操作が可能な,前例のない柔軟性を示す。
論文 参考訳(メタデータ) (2024-11-19T19:36:18Z) - AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。
適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。
様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-19T17:46:02Z) - Object-Guided Day-Night Visual Localization in Urban Scenes [2.4493299476776778]
提案手法はまず意味オブジェクトを検出し,画像間の対応性を確立する。
標準的な都市局所化データセットの実験により,OGuLはSIFTと同様の簡易な局所的特徴を持つ局所化結果を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-02-09T13:21:30Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。