論文の概要: Image Shape Manipulation from a Single Augmented Training Sample
- arxiv url: http://arxiv.org/abs/2007.01289v2
- Date: Thu, 25 Nov 2021 14:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:34:04.235287
- Title: Image Shape Manipulation from a Single Augmented Training Sample
- Title(参考訳): 単一強化トレーニングサンプルによる画像形状操作
- Authors: Yael Vinker and Eliahu Horwitz and Nir Zabari and Yedid Hoshen
- Abstract要約: DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
- 参考スコア(独自算出の注目度): 24.373900721120286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present DeepSIM, a generative model for conditional image
manipulation based on a single image. We find that extensive augmentation is
key for enabling single image training, and incorporate the use of
thin-plate-spline (TPS) as an effective augmentation. Our network learns to map
between a primitive representation of the image to the image itself. The choice
of a primitive representation has an impact on the ease and expressiveness of
the manipulations and can be automatic (e.g. edges), manual (e.g. segmentation)
or hybrid such as edges on top of segmentations. At manipulation time, our
generator allows for making complex image changes by modifying the primitive
input representation and mapping it through the network. Our method is shown to
achieve remarkable performance on image manipulation tasks.
- Abstract(参考訳): 本稿では,1つの画像に基づく条件付き画像操作のための生成モデルであるDeepSIMを提案する。
広汎な拡張が単一画像トレーニングの鍵となり,TPS(Thin-plate-Spline)を有効拡張として活用できることが判明した。
私たちのネットワークは、イメージのプリミティブ表現とイメージ自体をマップすることを学びます。
プリミティブ表現の選択は操作の容易さと表現力に影響を与え、自動(エッジなど)、手動(セグメンテーションなど)、あるいはセグメンテーションの上部のエッジのようなハイブリッド化が可能である。
操作時には、プリミティブ入力表現を変更してネットワークにマッピングすることで、複雑な画像変更を可能にします。
本手法は画像操作タスクにおいて顕著な性能を発揮する。
関連論文リスト
- CIMGEN: Controlled Image Manipulation by Finetuning Pretrained
Generative Models on Limited Data [14.469539513542584]
セマンティックマップは、画像に存在するオブジェクトの情報を持っている。
簡単にマップを変更して、マップ内のオブジェクトを選択的に挿入、削除、置換することができる。
本稿では,修正セマンティックマップを取り入れ,修正セマンティックマップに従って原画像を変更する手法を提案する。
論文 参考訳(メタデータ) (2024-01-23T06:30:47Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Image Shape Manipulation from a Single Augmented Training Sample [26.342929563689218]
DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
論文 参考訳(メタデータ) (2021-09-13T17:44:04Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation [11.724779328025589]
本稿では,S2FGANと呼ばれるスケッチ・ツー・イメージ生成フレームワークを提案する。
我々は2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。
提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-30T13:42:39Z) - Training End-to-end Single Image Generators without GANs [27.393821783237186]
AugurOneは、単一画像生成モデルをトレーニングするための新しいアプローチである。
提案手法は,入力画像の非アフィン強化を用いて,アップスケーリングニューラルネットワークを訓練する。
制御画像合成が可能なコンパクト潜在空間を共同で学習する。
論文 参考訳(メタデータ) (2020-04-07T17:58:03Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。