論文の概要: Combining Attention with Flow for Person Image Synthesis
- arxiv url: http://arxiv.org/abs/2108.01823v1
- Date: Wed, 4 Aug 2021 03:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 22:25:23.555871
- Title: Combining Attention with Flow for Person Image Synthesis
- Title(参考訳): 人物画像合成における注意と流れの融合
- Authors: Yurui Ren, Yubo Wu, Thomas H. Li, Shan Liu, Ge Li
- Abstract要約: 本稿では,注目操作とフローベース操作を組み合わせた新しいモデルを提案する。
本モデルでは,アテンション操作を利用して正確なターゲット構造を生成するだけでなく,フローベース操作を用いてリアルなソーステクスチャをサンプリングする。
- 参考スコア(独自算出の注目度): 55.670135403481275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose-guided person image synthesis aims to synthesize person images by
transforming reference images into target poses. In this paper, we observe that
the commonly used spatial transformation blocks have complementary advantages.
We propose a novel model by combining the attention operation with the
flow-based operation. Our model not only takes the advantage of the attention
operation to generate accurate target structures but also uses the flow-based
operation to sample realistic source textures. Both objective and subjective
experiments demonstrate the superiority of our model. Meanwhile, comprehensive
ablation studies verify our hypotheses and show the efficacy of the proposed
modules. Besides, additional experiments on the portrait image editing task
demonstrate the versatility of the proposed combination.
- Abstract(参考訳): ポーズ誘導型人物画像合成は、基準画像から対象ポーズに変換することにより、人物画像の合成を目標とする。
本稿では,一般的な空間変換ブロックに相補的な利点があることを示す。
本稿では,注目操作とフローベース操作を組み合わせた新しいモデルを提案する。
本モデルでは,アテンション操作を利用して正確なターゲット構造を生成するだけでなく,フローベース操作を用いてリアルなソーステクスチャをサンプリングする。
客観的かつ主観的な実験は、我々のモデルの優越性を実証する。
一方,包括的アブレーション研究は仮説を検証し,提案するモジュールの有効性を示す。
また,ポートレート画像編集タスクのさらなる実験により,提案手法の汎用性が示された。
関連論文リスト
- Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。