論文の概要: Towards Purely Unsupervised Disentanglement of Appearance and Shape for
Person Images Generation
- arxiv url: http://arxiv.org/abs/2007.13098v2
- Date: Thu, 30 Jul 2020 00:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 20:04:00.788319
- Title: Towards Purely Unsupervised Disentanglement of Appearance and Shape for
Person Images Generation
- Title(参考訳): 人物画像生成のための純粋に教師なし外見と形状の絡み合い
- Authors: Hongtao Yang, Tong Zhang, Wenbing Huang, Xuming He, Fatih Porikli
- Abstract要約: 我々は,入力画像から形状と外観の特徴を同時に抽出するエンコーダ・デコーダのようなネットワークを定式化する。
特徴的対向的損失,色調的損失,復元的損失の3つの損失でパラメータを訓練する。
DeepFashion と Market1501 の実験結果から,提案手法がクリーンな絡み合いを実現することを示す。
- 参考スコア(独自算出の注目度): 88.03260155937407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been a fairly of research interests in exploring the
disentanglement of appearance and shape from human images. Most existing
endeavours pursuit this goal by either using training images with annotations
or regulating the training process with external clues such as human skeleton,
body segmentation or cloth patches etc. In this paper, we aim to address this
challenge in a more unsupervised manner---we do not require any annotation nor
any external task-specific clues. To this end, we formulate an
encoder-decoder-like network to extract both the shape and appearance features
from input images at the same time, and train the parameters by three losses:
feature adversarial loss, color consistency loss and reconstruction loss. The
feature adversarial loss mainly impose little to none mutual information
between the extracted shape and appearance features, while the color
consistency loss is to encourage the invariance of person appearance
conditioned on different shapes. More importantly, our unsupervised
(Unsupervised learning has many interpretations in different tasks. To be
clear, in this paper, we refer unsupervised learning as learning without
task-specific human annotations, pairs or any form of weak supervision.)
framework utilizes learned shape features as masks which are applied to the
input itself in order to obtain clean appearance features. Without using fixed
input human skeleton, our network better preserves the conditional human
posture while requiring less supervision. Experimental results on DeepFashion
and Market1501 demonstrate that the proposed method achieves clean
disentanglement and is able to synthesis novel images of comparable quality
with state-of-the-art weakly-supervised or even supervised methods.
- Abstract(参考訳): 人間の画像から外見と形状の絡み合いを探索する研究には、かなりの関心が寄せられている。
既存の取り組みの多くは、アノテーション付きトレーニングイメージを使用するか、人間の骨格、身体の分節、布のパッチなどの外部の手がかりでトレーニングプロセスを調整することによって、この目標を追求している。
本稿では、アノテーションや外部タスク固有のヒントを必要としない、教師なしの方法でこの問題に対処することを目的とする。
この目的のために、エンコーダ・デコーダのようなネットワークを定式化し、入力画像から形状特徴と外観特徴の両方を同時に抽出し、特徴反転損失、色整合損失、再構成損失の3つの損失でパラメータを訓練する。
特徴対向損失は、抽出された形状と外観特徴との間の相互情報をほとんど何ら示さず、色相整合損失は、異なる形状に条件付けられた人物の外観のばらつきを促進する。
より重要なことに、教師なし学習(教師なし学習は異なるタスクで多くの解釈を持っている)は、教師なし学習をタスク固有の人間のアノテーションやペア、あるいは弱い監督のあらゆる形態なしで学習するものとして参照する。)フレームワークでは、学習された形状の特徴を入力自身に適用し、クリーンな外観特徴を得るためのマスクとして利用する。
固定入力された人間の骨格を使わずに、ネットワークはより少ない監督を必要とすることなく、条件付き人間の姿勢を保存できる。
deepfashion と market1501 の実験結果は,提案手法がクリーンな異方性を実現し,最先端の弱教師付きあるいは教師付き手法で同等の品質の新しい画像を合成できることを示した。
関連論文リスト
- Understanding Pose and Appearance Disentanglement in 3D Human Pose
Estimation [72.50214227616728]
ポーズ情報から外見情報を引き離すために,自己教師型で画像表現を学習する手法がいくつか提案されている。
我々は,多種多様な画像合成実験を通じて,自己教師ネットワークの観点から,ゆがみについて検討する。
我々は,対象の自然な外見変化を生起することに焦点を当てた敵対的戦略を設計し,その反対に,絡み合ったネットワークが堅牢であることを期待している。
論文 参考訳(メタデータ) (2023-09-20T22:22:21Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Self-Supervised Learning for Place Representation Generalization across
Appearance Changes [11.030196234282675]
本研究では,幾何学的変換に敏感な外観変化に対して頑健な学習特徴を自己指導的に検討する。
その結果,視覚的位置認識と視覚的位置認識の協調学習が,視覚的位置認識の競合に繋がることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-04T10:14:47Z) - Occluded Person Re-Identification via Relational Adaptive Feature
Correction Learning [8.015703163954639]
複数のカメラが捉えた画像中の被写体再識別(Re-ID)は、歩行者や物体が被写体を隠蔽しているため困難である。
既存のほとんどの手法では、ネットワークを擬似ラベルとして利用しており、エラーを起こしやすい。
本稿では,Occlusion Correction Network (OCNet) を提案する。Occlusion Correction Network (OCNet) は,リレーショナル・ウェイト・ラーニングによって特徴を補正し,外部ネットワークを使わずに多様で代表的な特徴を得られる。
論文 参考訳(メタデータ) (2022-12-09T07:48:47Z) - Fully Unsupervised Person Re-identification viaSelective Contrastive
Learning [58.5284246878277]
人物再識別(ReID)は、様々なカメラが捉えた画像の中から同一人物を検索することを目的としている。
教師なし特徴学習のための新しい選択型コントラスト学習フレームワークを提案する。
その結果,教師なしのReIDにおける手法の優位性について,最先端技術と比較した。
論文 参考訳(メタデータ) (2020-10-15T09:09:23Z) - Unsupervised Deep Metric Learning with Transformed Attention Consistency
and Contrastive Clustering Loss [28.17607283348278]
教師なしのメートル法学習のための既存のアプローチは、入力画像自体の自己超越情報を探索することに焦点を当てている。
我々は、画像を分析する際、人間の目は個々の画像を調べるのではなく、互いに画像を比較することが多いことを観察した。
本研究では,画像間の自己超越情報に基づいてネットワークを学習する,教師なし深度学習のための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-08-10T19:33:47Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z) - Face Identity Disentanglement via Latent Space Mapping [47.27253184341152]
本稿では,データ表現を最小限に抑えながら,不整合な方法で表現する方法を学習する手法を提案する。
我々の重要な洞察は、StyleGANのような先行訓練済みの未条件画像生成装置を利用することで、アンタングル化と合成のプロセスを切り離すことである。
提案手法は,既存の手法を超越して,他の顔属性と同一性を切り離すことに成功した。
論文 参考訳(メタデータ) (2020-05-15T18:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。