論文の概要: Exploring Dual-task Correlation for Pose Guided Person Image Generation
- arxiv url: http://arxiv.org/abs/2203.02910v1
- Date: Sun, 6 Mar 2022 09:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 07:52:08.302464
- Title: Exploring Dual-task Correlation for Pose Guided Person Image Generation
- Title(参考訳): Pose Guided Person Image Generationのためのデュアルタスク相関の探索
- Authors: Pengze Zhang, Lingxiao Yang, Jianhuang Lai, Xiaohua Xie
- Abstract要約: Pose Guided Person Image Generation (PGPIG) は、人物画像をソースポーズから所定のターゲットポーズに変換するタスクである。
既存のメソッドのほとんどは、不適切なソース・ツー・ターゲットタスクにのみフォーカスし、合理的なテクスチャマッピングの取得に失敗している。
提案するDual-task Pose Transformer Network(DPTN)は,PGPIGの性能向上のために,複数タスク(ソース・ソース・タスク)を導入し,両タスク相関を利用する。
- 参考スコア(独自算出の注目度): 66.69405087817131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose Guided Person Image Generation (PGPIG) is the task of transforming a
person image from the source pose to a given target pose. Most of the existing
methods only focus on the ill-posed source-to-target task and fail to capture
reasonable texture mapping. To address this problem, we propose a novel
Dual-task Pose Transformer Network (DPTN), which introduces an auxiliary task
(i.e., source-to-source task) and exploits the dual-task correlation to promote
the performance of PGPIG. The DPTN is of a Siamese structure, containing a
source-to-source self-reconstruction branch, and a transformation branch for
source-to-target generation. By sharing partial weights between them, the
knowledge learned by the source-to-source task can effectively assist the
source-to-target learning. Furthermore, we bridge the two branches with a
proposed Pose Transformer Module (PTM) to adaptively explore the correlation
between features from dual tasks. Such correlation can establish the
fine-grained mapping of all the pixels between the sources and the targets, and
promote the source texture transmission to enhance the details of the generated
target images. Extensive experiments show that our DPTN outperforms
state-of-the-arts in terms of both PSNR and LPIPS. In addition, our DPTN only
contains 9.79 million parameters, which is significantly smaller than other
approaches. Our code is available at:
https://github.com/PangzeCheung/Dual-task-Pose-Transformer-Network.
- Abstract(参考訳): Pose Guided Person Image Generation (PGPIG) は、人物画像をソースポーズから所定のターゲットポーズに変換するタスクである。
既存のメソッドのほとんどは、不適切なソース・ツー・ターゲットタスクにのみフォーカスし、合理的なテクスチャマッピングを取得できない。
そこで本研究では,pgpigの性能向上のために,補助タスク(すなわちソース・ツー・ソースタスク)を導入し,デュアル・タスク相関を活用した,新しいデュアル・タスクポーズ・トランスフォーマネットワーク(dptn)を提案する。
DPTNは、ソースからソースへの自己再構成ブランチと、ソースからターゲットへの生成のための変換ブランチを含むシームズ構造である。
それらの部分的な重みを共有することにより、ソース間タスクによって学習される知識は、ソース間学習を効果的に支援することができる。
さらに,2つの分岐をPTM(Pose Transformer Module)でブリッジし,2つのタスク間の関係を適応的に探索する。
このような相関関係は、ソースとターゲット間の全画素のきめ細かいマッピングを確立し、ソーステクスチャ送信を促進して、生成されたターゲット画像の詳細を強化することができる。
拡張実験の結果,DPTNはPSNRとLPIPSの両面で最先端の成績を示した。
さらに、私たちのdptnは9.79億のパラメータしか含んでいません。
私たちのコードは、https://github.com/PangzeCheung/Dual-task-Pose-Transformer-Networkで利用可能です。
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Self-supervised Correlation Mining Network for Person Image Generation [9.505343361614928]
人物画像生成は、ソース画像の非剛性変形を実現することを目的としている。
特徴空間のソース画像を再構成する自己教師付き相関マイニングネットワーク(SCM-Net)を提案する。
クロススケールポーズ変換の忠実度を向上させるために,グラフに基づく身体構造保持損失を提案する。
論文 参考訳(メタデータ) (2021-11-26T03:57:46Z) - DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic
Segmentation [97.74059510314554]
セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。
既存の手法では、大きなドメインギャップに悩まされながら、ドメイン不変の特徴を学習しようとする。
本稿では,新しいDual Soft-Paste (DSP)法を提案する。
論文 参考訳(メタデータ) (2021-07-20T16:22:40Z) - Two-Stream Appearance Transfer Network for Person Image Generation [16.681839931864886]
画像生成や翻訳に広く用いられているGAN(Generative Adversarial Network)は、空間的局所的および翻訳同変演算子に依存している。
本稿では,この課題に対処するために,新しい2ストリームの外観伝達ネットワーク(2s-ATN)を提案する。
ソースストリームとターゲットストリームで構成される多段階アーキテクチャである。各ステージは外観伝達モジュールと複数の2ストリーム特徴融合モジュールを備える。
論文 参考訳(メタデータ) (2020-11-09T04:21:02Z) - Deep Spatial Transformation for Pose-Guided Person Image Generation and
Animation [50.10989443332995]
ポーズ誘導型人物画像生成とアニメーションは、元人物画像をターゲットポーズに変換することを目的としている。
畳み込みニューラルネットワークは、入力を空間的に変換する能力の欠如によって制限される。
本稿では,機能レベルでのインプットを再構築するグローバルフロー局所アテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T08:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。