論文の概要: Exploring Dual-task Correlation for Pose Guided Person Image Generation
- arxiv url: http://arxiv.org/abs/2203.02910v1
- Date: Sun, 6 Mar 2022 09:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 07:52:08.302464
- Title: Exploring Dual-task Correlation for Pose Guided Person Image Generation
- Title(参考訳): Pose Guided Person Image Generationのためのデュアルタスク相関の探索
- Authors: Pengze Zhang, Lingxiao Yang, Jianhuang Lai, Xiaohua Xie
- Abstract要約: Pose Guided Person Image Generation (PGPIG) は、人物画像をソースポーズから所定のターゲットポーズに変換するタスクである。
既存のメソッドのほとんどは、不適切なソース・ツー・ターゲットタスクにのみフォーカスし、合理的なテクスチャマッピングの取得に失敗している。
提案するDual-task Pose Transformer Network(DPTN)は,PGPIGの性能向上のために,複数タスク(ソース・ソース・タスク)を導入し,両タスク相関を利用する。
- 参考スコア(独自算出の注目度): 66.69405087817131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose Guided Person Image Generation (PGPIG) is the task of transforming a
person image from the source pose to a given target pose. Most of the existing
methods only focus on the ill-posed source-to-target task and fail to capture
reasonable texture mapping. To address this problem, we propose a novel
Dual-task Pose Transformer Network (DPTN), which introduces an auxiliary task
(i.e., source-to-source task) and exploits the dual-task correlation to promote
the performance of PGPIG. The DPTN is of a Siamese structure, containing a
source-to-source self-reconstruction branch, and a transformation branch for
source-to-target generation. By sharing partial weights between them, the
knowledge learned by the source-to-source task can effectively assist the
source-to-target learning. Furthermore, we bridge the two branches with a
proposed Pose Transformer Module (PTM) to adaptively explore the correlation
between features from dual tasks. Such correlation can establish the
fine-grained mapping of all the pixels between the sources and the targets, and
promote the source texture transmission to enhance the details of the generated
target images. Extensive experiments show that our DPTN outperforms
state-of-the-arts in terms of both PSNR and LPIPS. In addition, our DPTN only
contains 9.79 million parameters, which is significantly smaller than other
approaches. Our code is available at:
https://github.com/PangzeCheung/Dual-task-Pose-Transformer-Network.
- Abstract(参考訳): Pose Guided Person Image Generation (PGPIG) は、人物画像をソースポーズから所定のターゲットポーズに変換するタスクである。
既存のメソッドのほとんどは、不適切なソース・ツー・ターゲットタスクにのみフォーカスし、合理的なテクスチャマッピングを取得できない。
そこで本研究では,pgpigの性能向上のために,補助タスク(すなわちソース・ツー・ソースタスク)を導入し,デュアル・タスク相関を活用した,新しいデュアル・タスクポーズ・トランスフォーマネットワーク(dptn)を提案する。
DPTNは、ソースからソースへの自己再構成ブランチと、ソースからターゲットへの生成のための変換ブランチを含むシームズ構造である。
それらの部分的な重みを共有することにより、ソース間タスクによって学習される知識は、ソース間学習を効果的に支援することができる。
さらに,2つの分岐をPTM(Pose Transformer Module)でブリッジし,2つのタスク間の関係を適応的に探索する。
このような相関関係は、ソースとターゲット間の全画素のきめ細かいマッピングを確立し、ソーステクスチャ送信を促進して、生成されたターゲット画像の詳細を強化することができる。
拡張実験の結果,DPTNはPSNRとLPIPSの両面で最先端の成績を示した。
さらに、私たちのdptnは9.79億のパラメータしか含んでいません。
私たちのコードは、https://github.com/PangzeCheung/Dual-task-Pose-Transformer-Networkで利用可能です。
関連論文リスト
- ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Source Identification: A Self-Supervision Task for Dense Prediction [8.744460886823322]
我々は、ソース識別(SI)と呼ばれる新しいセルフスーパービジョンタスクを提案する。
合成画像は、複数のソースイメージを融合させて生成され、融合された画像を考えると、ネットワークのタスクは元のイメージを再構築することである。
脳腫瘍分節と白質高強度分節という2つの医療画像分節課題に対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-07-05T12:27:58Z) - PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for
Cross-View Image Translation [84.97160975101718]
本稿では,新しい並列-ConvMLPモジュールと,複数のセマンティックレベルでのインプリシット変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。
PI-Transは、2つの挑戦的データセットの最先端手法と比較して、大きなマージンで最も質的で定量的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-09T10:35:44Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Self-supervised Correlation Mining Network for Person Image Generation [9.505343361614928]
人物画像生成は、ソース画像の非剛性変形を実現することを目的としている。
特徴空間のソース画像を再構成する自己教師付き相関マイニングネットワーク(SCM-Net)を提案する。
クロススケールポーズ変換の忠実度を向上させるために,グラフに基づく身体構造保持損失を提案する。
論文 参考訳(メタデータ) (2021-11-26T03:57:46Z) - Unifying Multimodal Transformer for Bi-directional Image and Text
Generation [8.547205551848462]
本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。
双方向タスクを共同で研究するために,単一のマルチモーダルモデルに基づく統合画像・テキスト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T06:01:24Z) - DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic
Segmentation [97.74059510314554]
セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。
既存の手法では、大きなドメインギャップに悩まされながら、ドメイン不変の特徴を学習しようとする。
本稿では,新しいDual Soft-Paste (DSP)法を提案する。
論文 参考訳(メタデータ) (2021-07-20T16:22:40Z) - Two-Stream Appearance Transfer Network for Person Image Generation [16.681839931864886]
画像生成や翻訳に広く用いられているGAN(Generative Adversarial Network)は、空間的局所的および翻訳同変演算子に依存している。
本稿では,この課題に対処するために,新しい2ストリームの外観伝達ネットワーク(2s-ATN)を提案する。
ソースストリームとターゲットストリームで構成される多段階アーキテクチャである。各ステージは外観伝達モジュールと複数の2ストリーム特徴融合モジュールを備える。
論文 参考訳(メタデータ) (2020-11-09T04:21:02Z) - Deep Spatial Transformation for Pose-Guided Person Image Generation and
Animation [50.10989443332995]
ポーズ誘導型人物画像生成とアニメーションは、元人物画像をターゲットポーズに変換することを目的としている。
畳み込みニューラルネットワークは、入力を空間的に変換する能力の欠如によって制限される。
本稿では,機能レベルでのインプットを再構築するグローバルフロー局所アテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T08:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。