論文の概要: Towards Fine-grained Human Pose Transfer with Detail Replenishing
Network
- arxiv url: http://arxiv.org/abs/2005.12494v2
- Date: Fri, 7 May 2021 04:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:14:17.836234
- Title: Towards Fine-grained Human Pose Transfer with Detail Replenishing
Network
- Title(参考訳): 細部補足ネットワークを用いた細粒度人間のポーズ伝達
- Authors: Lingbo Yang, Pan Wang, Chang Liu, Zhanning Gao, Peiran Ren, Xinfeng
Zhang, Shanshe Wang, Siwei Ma, Xiansheng Hua, Wen Gao
- Abstract要約: ヒューマン・ポーズ・トランスファー(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティーにおいて大きな可能性を秘めている研究分野である。
既存のHPT手法は、詳細不足、内容の曖昧さ、スタイルの不整合という3つの根本的な問題に悩まされることが多い。
我々は、より難易度が高く実用的なHPTセッティングを開発し、よりセマンティックな忠実さと詳細な補充に焦点を当てた、FHPT(F Fine-fine Human Pose Transfer)と呼ばれる。
- 参考スコア(独自算出の注目度): 96.54367984986898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human pose transfer (HPT) is an emerging research topic with huge potential
in fashion design, media production, online advertising and virtual reality.
For these applications, the visual realism of fine-grained appearance details
is crucial for production quality and user engagement. However, existing HPT
methods often suffer from three fundamental issues: detail deficiency, content
ambiguity and style inconsistency, which severely degrade the visual quality
and realism of generated images. Aiming towards real-world applications, we
develop a more challenging yet practical HPT setting, termed as Fine-grained
Human Pose Transfer (FHPT), with a higher focus on semantic fidelity and detail
replenishment. Concretely, we analyze the potential design flaws of existing
methods via an illustrative example, and establish the core FHPT methodology by
combing the idea of content synthesis and feature transfer together in a
mutually-guided fashion. Thereafter, we substantiate the proposed methodology
with a Detail Replenishing Network (DRN) and a corresponding coarse-to-fine
model training scheme. Moreover, we build up a complete suite of fine-grained
evaluation protocols to address the challenges of FHPT in a comprehensive
manner, including semantic analysis, structural detection and perceptual
quality assessment. Extensive experiments on the DeepFashion benchmark dataset
have verified the power of proposed benchmark against start-of-the-art works,
with 12\%-14\% gain on top-10 retrieval recall, 5\% higher joint localization
accuracy, and near 40\% gain on face identity preservation. Moreover, the
evaluation results offer further insights to the subject matter, which could
inspire many promising future works along this direction.
- Abstract(参考訳): ヒューマン・ポーズ・トランスファー(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティーにおいて大きな可能性を秘めている研究分野である。
これらのアプリケーションにとって、きめ細かい外観の詳細の視覚的リアリズムは、生産品質とユーザエンゲージメントに不可欠である。
しかし、既存のHPT法は、細部不足、内容の曖昧さ、スタイルの不整合という3つの根本的な問題に悩まされ、生成した画像の視覚的品質とリアリズムを著しく低下させる。
現実の応用を目指して,より難易度の高い実用的なHPTセッティングを開発し,よりセマンティックな忠実さと細部補充を重視したFHPT(Fin-fine Human Pose Transfer)を開発した。
具体的には,既存の手法の潜在的な設計上の欠陥を例示的に分析し,コンテンツ合成と特徴伝達を相互に誘導した方法で融合することにより,コアfhpt手法を確立する。
その後,提案手法をDretail Replenishing Network (DRN) とそれに対応する粗大なモデルトレーニングスキームで検証した。
さらに, 意味分析, 構造検出, 知覚的品質評価など, fhptの課題を包括的に解決するために, 細粒度評価プロトコルの完全スイートを構築した。
deepfashionベンチマークデータセットに関する広範囲な実験により、top-10検索リコールにおける12\%-14\%、関節局所化精度5\%、顔識別保存における40\%近く向上したベンチマークのパワーが検証された。
さらに, 評価結果から, 課題に対するさらなる洞察が得られれば, 今後の課題の方向性に多くの期待が持たれる。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Deep Content Understanding Toward Entity and Aspect Target Sentiment Analysis on Foundation Models [0.8602553195689513]
Entity-Aspect Sentiment Triplet extract (EASTE)は、Aspect-Based Sentiment Analysisタスクである。
本研究は,EASTEタスクにおける高性能化を目標とし,モデルサイズ,タイプ,適応技術がタスクパフォーマンスに与える影響について検討する。
最終的には、複雑な感情分析における詳細な洞察と最先端の成果を提供する。
論文 参考訳(メタデータ) (2024-07-04T16:48:14Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - QUASAR: QUality and Aesthetics Scoring with Advanced Representations [20.194917729936357]
本稿では,画像品質と美学評価のための新しいデータ駆動非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
論文 参考訳(メタデータ) (2024-03-11T16:21:50Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文 参考訳(メタデータ) (2024-02-20T01:48:33Z) - Human as Points: Explicit Point-based 3D Human Reconstruction from
Single-view RGB Images [78.56114271538061]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文 参考訳(メタデータ) (2023-11-06T05:52:29Z) - Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。
PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。
提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-27T14:39:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - ZFlow: Gated Appearance Flow-based Virtual Try-on with 3D Priors [13.977100716044104]
画像ベースの仮想トライオンでは、特定の衣服を着たモデルの説得力のあるイメージを合成する。
近年の方法は2段階のプロセスを含む:i) モデル ii に合わせるために衣服を変形させる。
モデルや衣服に関する幾何学的な情報の欠如は、しばしば細かい細部を不適切にレンダリングする。
我々は、これらの懸念を軽減するために、エンドツーエンドのフレームワークであるZFlowを提案する。
論文 参考訳(メタデータ) (2021-09-14T22:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。