論文の概要: Semi-supervised Hand Appearance Recovery via Structure Disentanglement
and Dual Adversarial Discrimination
- arxiv url: http://arxiv.org/abs/2303.06380v1
- Date: Sat, 11 Mar 2023 11:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:19:14.537610
- Title: Semi-supervised Hand Appearance Recovery via Structure Disentanglement
and Dual Adversarial Discrimination
- Title(参考訳): 構造ディスタングルメントと双対判別による半教師付き手の外観復元
- Authors: Zimeng Zhao, Binghui Zuo, Zhiyu Long, Yangang Wang
- Abstract要約: 鮮明な外観回復の洞察は、未ペアデータで訓練された画像から画像への変換である。
筆者らのアプローチの核となるのは、まずこれらの劣化した画像から素手構造を引き離し、その外見を二重対角識別方式で包み込むことである。
我々のフレームワークは、多種多様なマーカーとオブジェクトを含むデータセットから、フォトリアリスティックハンドの外観を頑健に復元できることを示すため、総合的な評価がなされている。
- 参考スコア(独自算出の注目度): 5.627981468468874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enormous hand images with reliable annotations are collected through
marker-based MoCap. Unfortunately, degradations caused by markers limit their
application in hand appearance reconstruction. A clear appearance recovery
insight is an image-to-image translation trained with unpaired data. However,
most frameworks fail because there exists structure inconsistency from a
degraded hand to a bare one. The core of our approach is to first disentangle
the bare hand structure from those degraded images and then wrap the appearance
to this structure with a dual adversarial discrimination (DAD) scheme. Both
modules take full advantage of the semi-supervised learning paradigm: The
structure disentanglement benefits from the modeling ability of ViT, and the
translator is enhanced by the dual discrimination on both translation processes
and translation results. Comprehensive evaluations have been conducted to prove
that our framework can robustly recover photo-realistic hand appearance from
diverse marker-contained and even object-occluded datasets. It provides a novel
avenue to acquire bare hand appearance data for other downstream learning
problems.The codes will be publicly available at https://www.yangangwang.com
- Abstract(参考訳): 信頼できるアノテーションを持つ多数の手画像は、マーカーベースのMoCapを介して収集される。
残念なことに、マーカーによる劣化は手の外観再構成における応用を制限する。
鮮明な外観回復の洞察は、未ペアデータで訓練された画像から画像への変換である。
しかし、ほとんどのフレームワークは、劣化した手から素手への構造的不整合が存在するため、失敗する。
我々のアプローチの核心は、まずこれらの劣化した画像から素手の構造を外し、それからこの構造に外観をデュアル・アドバーサル・デコレーション(dad)方式で包むことである。
両モジュールは、半教師付き学習パラダイムを最大限に活用する: 構造的アンタングルメントは、ViTのモデリング能力の恩恵を受け、翻訳処理と翻訳結果の両面での二重識別により、トランスレータが強化される。
我々のフレームワークは、多種多様なマーカーとオブジェクトを含むデータセットから、フォトリアリスティックハンドの外観を堅牢に復元できることを示すため、包括的な評価がなされている。
これは、他の下流の学習問題に対する素手での出現データを取得するための新しい手段を提供する。
関連論文リスト
- Toward Robust Imperceptible Perturbation against Unauthorized
Text-to-image Diffusion-based Synthesis [59.988458964353754]
テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。
既存のアプローチは、悪意のある使用から"学習不能"なイメージをレンダリングするために、知覚不可能な方法でユーザーイメージを摂動させる。
メタ学習フレームワークを用いて,バイレベル中毒の問題を解決するメタクラックを提案する。
論文 参考訳(メタデータ) (2023-11-22T03:31:31Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [73.8274638090392]
本稿では,事前訓練したテキスト・画像拡散モデルを利用したブラインド画像復元問題に対するDiffBIRを提案する。
本稿では, インジェクティブ変調サブネットワーク -- LAControlNet を微調整用として導入し, 事前学習した安定拡散はその生成能力を維持することを目的としている。
実験では、ブラインド画像の超解像とブラインド顔復元の両タスクにおいて、最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習できる新しいロバスト二重埋め込み法(RDE)を提案する。
RDEは2つの主要なコンポーネントから構成される: 1) 信頼合意部(CCD)モジュールは、二重埋め込みモジュールの二重きめ細かい決定を利用して、クリーンなトレーニングデータのコンセンサスセットを得る。
我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - UVCGAN v2: An Improved Cycle-Consistent GAN for Unpaired Image-to-Image
Translation [10.689788782893096]
I2I (unpaired image-to-image) 翻訳技術は、完全に教師なしの方法で2つのデータ領域間のマッピングを求める。
DMはFrechet distance(FID)の観点からI2I翻訳ベンチマークの最先端を保っている
この研究は、最近のUVCGANモデルを改善し、モデルアーキテクチャとトレーニング手順の近代化に資する。
論文 参考訳(メタデータ) (2023-03-28T19:46:34Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Structure Destruction and Content Combination for Face Anti-Spoofing [14.413900076141093]
アンチ・スプーフィング研究は、実際の人物と多様な攻撃タイプを識別するために、オリジナル画像に隠された手がかりを発掘する。
これらの手法はトレーニングデータセット全体の記憶に固執し、非ホモロジー領域分布に対する感受性を示す。
これら2つの模倣に対処するために,構造破壊モジュールとコンテンツ結合モジュールを提案する。
論文 参考訳(メタデータ) (2021-07-22T13:08:46Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。