論文の概要: Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation
for Pretrained Deep Generative Model
- arxiv url: http://arxiv.org/abs/2211.14573v3
- Date: Tue, 29 Aug 2023 10:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 19:08:37.426854
- Title: Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation
for Pretrained Deep Generative Model
- Title(参考訳): Deep Curvilinear Editing:Pretrained Deep Generative Modelのための圧縮および非線形画像操作
- Authors: Takehiro Aoshima, Takashi Matsubara
- Abstract要約: 本研究では,DeCurvEd(Deep curvilinear editing)と呼ばれる新しい手法を提案し,潜在空間上の意味交換ベクトル場を決定する。
従来の手法と比較して,DeCurvEdの非線形および可換性は画像属性の歪みを緩和し,高品質な編集を可能にすることを実験的に実証した。
- 参考スコア(独自算出の注目度): 11.240642213359267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic editing of images is the fundamental goal of computer vision.
Although deep learning methods, such as generative adversarial networks (GANs),
are capable of producing high-quality images, they often do not have an
inherent way of editing generated images semantically. Recent studies have
investigated a way of manipulating the latent variable to determine the images
to be generated. However, methods that assume linear semantic arithmetic have
certain limitations in terms of the quality of image editing, whereas methods
that discover nonlinear semantic pathways provide non-commutative editing,
which is inconsistent when applied in different orders. This study proposes a
novel method called deep curvilinear editing (DeCurvEd) to determine semantic
commuting vector fields on the latent space. We theoretically demonstrate that
owing to commutativity, the editing of multiple attributes depends only on the
quantities and not on the order. Furthermore, we experimentally demonstrate
that compared to previous methods, the nonlinear and commutative nature of
DeCurvEd facilitates the disentanglement of image attributes and provides
higher-quality editing.
- Abstract(参考訳): 画像のセマンティック編集はコンピュータビジョンの基本的な目標である。
generative adversarial network(gans)のようなディープラーニング手法は高品質な画像を生成することができるが、生成した画像をセマンティックに編集する固有の方法を持たないことが多い。
近年の研究では、生成する画像を決定するために潜在変数を操作する方法が研究されている。
しかし、線形意味算術を仮定する手法は画像編集の品質に関して一定の制限があるが、非線形意味論経路を探索する手法は非可換な編集を提供するが、異なる順序で適用すると矛盾する。
本研究では,DeCurvEd(Deep curvilinear editing)と呼ばれる新しい手法を提案し,潜在空間上の意味交換ベクトル場を決定する。
理論的には、可換性のため、複数の属性の編集は量にのみ依存し、順序には依存しない。
さらに,従来の手法と比較して,DeCurvEdの非線形および可換性は画像属性の歪みを緩和し,高品質な編集を可能にすることを示した。
関連論文リスト
- InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Latent Transformations via NeuralODEs for GAN-based Image Editing [25.272389610447856]
トレーニング可能なNeural ODEのフローとして実現された非線形潜時符号操作は、多くの実用的な非顔画像領域にとって有益であることを示す。
特に、既知の属性を持つ多数のデータセットを調査し、ある属性操作が線形シフトのみで取得することが困難であることを実証する。
論文 参考訳(メタデータ) (2021-11-29T18:59:54Z) - Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing,
using Few Synthetic Samples [2.348633570886661]
本稿では,事前学習したGANの潜伏空間において,任意の属性を制御できる新しい手法を提案する。
我々は最小限のサンプルを頼りにSim2Real学習を行い、連続的な正確な編集を無制限に行う。
論文 参考訳(メタデータ) (2021-11-16T12:42:04Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。