論文の概要: Two-Stream Appearance Transfer Network for Person Image Generation
- arxiv url: http://arxiv.org/abs/2011.04181v1
- Date: Mon, 9 Nov 2020 04:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:18:20.349302
- Title: Two-Stream Appearance Transfer Network for Person Image Generation
- Title(参考訳): 人物画像生成のための2ストリーム表示伝達ネットワーク
- Authors: Chengkang Shen, Peiyan Wang and Wei Tang
- Abstract要約: 画像生成や翻訳に広く用いられているGAN(Generative Adversarial Network)は、空間的局所的および翻訳同変演算子に依存している。
本稿では,この課題に対処するために,新しい2ストリームの外観伝達ネットワーク(2s-ATN)を提案する。
ソースストリームとターゲットストリームで構成される多段階アーキテクチャである。各ステージは外観伝達モジュールと複数の2ストリーム特徴融合モジュールを備える。
- 参考スコア(独自算出の注目度): 16.681839931864886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose guided person image generation means to generate a photo-realistic
person image conditioned on an input person image and a desired pose. This task
requires spatial manipulation of the source image according to the target pose.
However, the generative adversarial networks (GANs) widely used for image
generation and translation rely on spatially local and translation equivariant
operators, i.e., convolution, pooling and unpooling, which cannot handle large
image deformation. This paper introduces a novel two-stream appearance transfer
network (2s-ATN) to address this challenge. It is a multi-stage architecture
consisting of a source stream and a target stream. Each stage features an
appearance transfer module and several two-stream feature fusion modules. The
former finds the dense correspondence between the two-stream feature maps and
then transfers the appearance information from the source stream to the target
stream. The latter exchange local information between the two streams and
supplement the non-local appearance transfer. Both quantitative and qualitative
results indicate the proposed 2s-ATN can effectively handle large spatial
deformation and occlusion while retaining the appearance details. It
outperforms prior states of the art on two widely used benchmarks.
- Abstract(参考訳): ポーズ誘導人物画像生成手段は、入力された人物画像と所望のポーズとを条件としたフォトリアリスティックな人物画像を生成する。
このタスクは、ターゲットポーズに応じてソースイメージを空間的に操作する必要がある。
しかし、画像生成や翻訳に広く使われる生成逆ネットワーク(gans)は、大きな画像変形を処理できない畳み込み、プール、アンプールといった空間的局所的および翻訳等価作用素に依存する。
本稿では,この課題に対処するために,新しい2ストリームの外観伝達ネットワーク(2s-ATN)を提案する。
ソースストリームとターゲットストリームで構成される多段階アーキテクチャである。
各ステージは外観伝達モジュールと複数の2ストリーム特徴融合モジュールを備える。
前者は、2つのストリームの特徴マップ間の密接な対応を見つけ、その出現情報をソースストリームからターゲットストリームに転送する。
後者は2つのストリーム間でローカル情報を交換し、非ローカルな外観転送を補完する。
定量的および定性的な結果は、提案した2s-ATNが外観の詳細を維持しながら、大きな空間的変形と閉塞を効果的に処理できることを示している。
これは、広く使われている2つのベンチマークにおいて、以前の技術の状態を上回っている。
関連論文リスト
- Diffusion-driven GAN Inversion for Multi-Modal Face Image Generation [41.341693150031546]
本稿では,テキストプロンプトとセマンティックマスクやマップなどの視覚入力を写真リアルな顔画像に変換するマルチモーダル顔画像生成手法を提案する。
本稿では,2つのモデルを連結し,特徴写像と注目マップの有意な表現を潜在符号に変換するための,シンプルなマッピングとスタイル変調ネットワークを提案する。
提案するネットワークは, リアルな2D, マルチビュー, スタイル化された顔画像を生成する。
論文 参考訳(メタデータ) (2024-05-07T14:33:40Z) - S2ST: Image-to-Image Translation in the Seed Space of Latent Diffusion [23.142097481682306]
複雑な画像におけるグローバルI2ITを実現するための新しいフレームワークであるS2STを紹介する。
S2STは遅延拡散モデルのシード空間内で動作し、後者が学習した強力な画像の先行処理を利用する。
S2STは、複雑な自動車シーンに対して、最先端のGANベースのI2IT手法、および拡散ベースのアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-11-30T18:59:49Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Guided Image-to-Image Translation by Discriminator-Generator
Communication [71.86347329356244]
Image-to-image (I2I) 翻訳の目標は、ソースドメインからターゲットドメインに画像を転送することである。
本研究の主な分野は,GAN(Generative Adversarial Network)に基づくI2I翻訳の定式化である。
論文 参考訳(メタデータ) (2023-03-07T02:29:36Z) - StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文 参考訳(メタデータ) (2021-05-30T15:57:09Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Progressive and Aligned Pose Attention Transfer for Person Image
Generation [59.87492938953545]
本稿では,ある人物のポーズを対象のポーズに移す,新たなポーズ移動のための生成的広告ネットワークを提案する。
Pose-Attentional Transfer Block (PATB) と Aligned Pose-Attentional Transfer Bloc (APATB) の2種類のブロックを使用します。
Market-1501およびDeepFashionデータセットにおけるモデルの有効性を定量的および定性測定を用いて検証する。
論文 参考訳(メタデータ) (2021-03-22T07:24:57Z) - DeepI2I: Enabling Deep Hierarchical Image-to-Image Translation by
Transferring from GANs [43.33066765114446]
画像から画像への変換は、クラス間の変換が大きな形状変化を必要とする場合、性能が劣る。
本稿では,DeepI2Iと呼ばれる新しい階層型画像から画像への変換手法を提案する。
転送学習はI2Iシステム、特に小さなデータセットの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2020-11-11T16:03:03Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - XingGAN for Person Image Generation [149.54517767056382]
本稿では,人物画像生成タスクのための新しいジェネレーティブ・アドバイザリアル・ネットワーク(XingGAN)を提案する。
XingGANは、人物の外観と形状をモデル化する2世代ブランチで構成されている。
提案したXingGANは,客観的な定量的スコアと主観的視覚的現実性の観点から,最先端のパフォーマンスを向上することを示す。
論文 参考訳(メタデータ) (2020-07-17T23:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。