論文の概要: Spatial Content Alignment For Pose Transfer
- arxiv url: http://arxiv.org/abs/2103.16828v1
- Date: Wed, 31 Mar 2021 06:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 02:12:52.544188
- Title: Spatial Content Alignment For Pose Transfer
- Title(参考訳): ポーズ伝達のための空間コンテンツアライメント
- Authors: Wing-Yin Yu, Lai-Man Po, Yuzhi Zhao, Jingjing Xiong, Kin-Wai Lau
- Abstract要約: 衣服のテクスチャーのコンテンツ一貫性と人間の特性の詳細を高めるための新しいフレームワークを提案します。
まず,前もってターゲットポーズにエッジ内容の転送を行うことにより,空間的不整合を緩和する。
第二に、フォトリアリスティックな人物画像を順調に合成できる新しいContent-Style DeBlkを紹介します。
- 参考スコア(独自算出の注目度): 13.018067816407923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to unreliable geometric matching and content misalignment, most
conventional pose transfer algorithms fail to generate fine-trained person
images. In this paper, we propose a novel framework Spatial Content Alignment
GAN (SCAGAN) which aims to enhance the content consistency of garment textures
and the details of human characteristics. We first alleviate the spatial
misalignment by transferring the edge content to the target pose in advance.
Secondly, we introduce a new Content-Style DeBlk which can progressively
synthesize photo-realistic person images based on the appearance features of
the source image, the target pose heatmap and the prior transferred content in
edge domain. We compare the proposed framework with several state-of-the-art
methods to show its superiority in quantitative and qualitative analysis.
Moreover, detailed ablation study results demonstrate the efficacy of our
contributions. Codes are publicly available at
github.com/rocketappslab/SCA-GAN.
- Abstract(参考訳): 信頼性の低い幾何マッチングと内容の不整合のため、従来のポーズ転送アルゴリズムは微調整された人物画像の生成に失敗する。
本稿では,テクスチャの内容の整合性向上と人的特徴の詳細な記述を目的とした,空間コンテンツアライメントGAN(SCAGAN)を提案する。
まず,前もってターゲットポーズにエッジ内容の転送を行うことにより,空間的不整合を緩和する。
第2に、画像の外観特徴、ターゲットポーズのヒートマップ、エッジ領域における先行転送コンテンツに基づいて、フォトリアリスティックな人物画像を段階的に合成するContent-Style DeBlkを導入する。
提案手法をいくつかの最先端手法と比較し,定量および定性解析においてその優位性を示す。
さらに, 詳細なアブレーション研究の結果から, 貢献の有効性が示された。
コードはgithub.com/rocketappslab/SCA-GANで公開されている。
関連論文リスト
- Spatial-Semantic Collaborative Cropping for User Generated Content [32.490403964193014]
大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、世界中の人々に表示される。
以前の方法では、収穫された画像の美学を単に考慮しつつ、コンテンツの完全性を無視しているだけであり、これは収穫に不可欠である。
本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調作付けネットワーク(S2CNet)を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:25:12Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - Harnessing the Conditioning Sensorium for Improved Image Translation [2.9631016562930546]
マルチモーダル・ドメイン・トランスレーション(マルチモーダル・ドメイン・トランスレーション)は、通常、ある局所的な属性を「コンテンツ」イメージから継承する新しいイメージを指す。
本稿では,非絡み合った「コンテンツ」表現と「スタイル」表現をスクラッチから学習するための新しいアプローチを提案する。
既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。
次に、再構成対象のセットを最適化し易い方法で、スタイル抽出器とイメージデコーダを訓練する。
論文 参考訳(メタデータ) (2021-10-13T02:07:43Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。