論文の概要: Semi-supervised Hand Appearance Recovery via Structure Disentanglement
and Dual Adversarial Discrimination
- arxiv url: http://arxiv.org/abs/2303.06380v1
- Date: Sat, 11 Mar 2023 11:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:19:14.537610
- Title: Semi-supervised Hand Appearance Recovery via Structure Disentanglement
and Dual Adversarial Discrimination
- Title(参考訳): 構造ディスタングルメントと双対判別による半教師付き手の外観復元
- Authors: Zimeng Zhao, Binghui Zuo, Zhiyu Long, Yangang Wang
- Abstract要約: 鮮明な外観回復の洞察は、未ペアデータで訓練された画像から画像への変換である。
筆者らのアプローチの核となるのは、まずこれらの劣化した画像から素手構造を引き離し、その外見を二重対角識別方式で包み込むことである。
我々のフレームワークは、多種多様なマーカーとオブジェクトを含むデータセットから、フォトリアリスティックハンドの外観を頑健に復元できることを示すため、総合的な評価がなされている。
- 参考スコア(独自算出の注目度): 5.627981468468874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enormous hand images with reliable annotations are collected through
marker-based MoCap. Unfortunately, degradations caused by markers limit their
application in hand appearance reconstruction. A clear appearance recovery
insight is an image-to-image translation trained with unpaired data. However,
most frameworks fail because there exists structure inconsistency from a
degraded hand to a bare one. The core of our approach is to first disentangle
the bare hand structure from those degraded images and then wrap the appearance
to this structure with a dual adversarial discrimination (DAD) scheme. Both
modules take full advantage of the semi-supervised learning paradigm: The
structure disentanglement benefits from the modeling ability of ViT, and the
translator is enhanced by the dual discrimination on both translation processes
and translation results. Comprehensive evaluations have been conducted to prove
that our framework can robustly recover photo-realistic hand appearance from
diverse marker-contained and even object-occluded datasets. It provides a novel
avenue to acquire bare hand appearance data for other downstream learning
problems.The codes will be publicly available at https://www.yangangwang.com
- Abstract(参考訳): 信頼できるアノテーションを持つ多数の手画像は、マーカーベースのMoCapを介して収集される。
残念なことに、マーカーによる劣化は手の外観再構成における応用を制限する。
鮮明な外観回復の洞察は、未ペアデータで訓練された画像から画像への変換である。
しかし、ほとんどのフレームワークは、劣化した手から素手への構造的不整合が存在するため、失敗する。
我々のアプローチの核心は、まずこれらの劣化した画像から素手の構造を外し、それからこの構造に外観をデュアル・アドバーサル・デコレーション(dad)方式で包むことである。
両モジュールは、半教師付き学習パラダイムを最大限に活用する: 構造的アンタングルメントは、ViTのモデリング能力の恩恵を受け、翻訳処理と翻訳結果の両面での二重識別により、トランスレータが強化される。
我々のフレームワークは、多種多様なマーカーとオブジェクトを含むデータセットから、フォトリアリスティックハンドの外観を堅牢に復元できることを示すため、包括的な評価がなされている。
これは、他の下流の学習問題に対する素手での出現データを取得するための新しい手段を提供する。
関連論文リスト
- Semantic-guided Adversarial Diffusion Model for Self-supervised Shadow Removal [5.083330121710086]
GANベースのトレーニングは、しばしばモード崩壊や不安定な最適化といった問題に直面している。
自己教師付きシャドウ除去のための意味誘導逆拡散フレームワークを提案する。
複数の公開データセットで実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-07-01T09:14:38Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - HandFlow: Quantifying View-Dependent 3D Ambiguity in Two-Hand
Reconstruction with Normalizing Flow [73.7895717883622]
条件付き正規化フローフレームワークにおける可塑性再構成の分布を明示的にモデル化する。
この課題に対して,明示的な曖昧さモデリングが適していることを示す。
論文 参考訳(メタデータ) (2022-10-04T15:42:22Z) - Structure Destruction and Content Combination for Face Anti-Spoofing [14.413900076141093]
アンチ・スプーフィング研究は、実際の人物と多様な攻撃タイプを識別するために、オリジナル画像に隠された手がかりを発掘する。
これらの手法はトレーニングデータセット全体の記憶に固執し、非ホモロジー領域分布に対する感受性を示す。
これら2つの模倣に対処するために,構造破壊モジュールとコンテンツ結合モジュールを提案する。
論文 参考訳(メタデータ) (2021-07-22T13:08:46Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。