論文の概要: KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences
- arxiv url: http://arxiv.org/abs/2206.10090v1
- Date: Tue, 21 Jun 2022 03:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:55:09.734997
- Title: KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences
- Title(参考訳): KTN:多人数2D-3D対応学習のための知識伝達ネットワーク
- Authors: Xuanhan Wang, Lianli Gao, Yixuan Zhou, Jingkuan Song, Meng Wang
- Abstract要約: 画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 77.56222946832237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human densepose estimation, aiming at establishing dense correspondences
between 2D pixels of human body and 3D human body template, is a key technique
in enabling machines to have an understanding of people in images. It still
poses several challenges due to practical scenarios where real-world scenes are
complex and only partial annotations are available, leading to incompelete or
false estimations. In this work, we present a novel framework to detect the
densepose of multiple people in an image. The proposed method, which we refer
to Knowledge Transfer Network (KTN), tackles two main problems: 1) how to
refine image representation for alleviating incomplete estimations, and 2) how
to reduce false estimation caused by the low-quality training labels (i.e.,
limited annotations and class-imbalance labels). Unlike existing works directly
propagating the pyramidal features of regions for densepose estimation, the KTN
uses a refinement of pyramidal representation, where it simultaneously
maintains feature resolution and suppresses background pixels, and this
strategy results in a substantial increase in accuracy. Moreover, the KTN
enhances the ability of 3D based body parsing with external knowledges, where
it casts 2D based body parsers trained from sufficient annotations as a 3D
based body parser through a structural body knowledge graph. In this way, it
significantly reduces the adverse effects caused by the low-quality
annotations. The effectiveness of KTN is demonstrated by its superior
performance to the state-of-the-art methods on DensePose-COCO dataset.
Extensive ablation studies and experimental results on representative tasks
(e.g., human body segmentation, human part segmentation and keypoints
detection) and two popular densepose estimation pipelines (i.e., RCNN and
fully-convolutional frameworks), further indicate the generalizability of the
proposed method.
- Abstract(参考訳): 人体2次元画素と3次元人体テンプレートとの密接な対応を確立することを目的とした人体密着度推定は,画像中の人物の理解を可能にする重要な手法である。
現実のシーンが複雑で、部分的なアノテーションしか利用できないという現実的なシナリオのために、まだいくつかの課題がある。
本研究では,画像中の複数の人物の密着度を検出する新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)と呼ばれるもので,主に2つの問題に対処する。
1)不完全な推定を緩和するための画像表現の洗練方法、及び
2)低品質なトレーニングラベル(限定的なアノテーションとクラス不均衡ラベル)による誤推定の低減方法。
密度推定のための領域のピラミッド的特徴を直接伝播する既存の研究とは異なり、KTNはピラミッド的表現を改良し、特徴解像度を同時に維持し、背景画素を抑圧し、この戦略により精度が大幅に向上する。
さらに、KTNは、構造体知識グラフを通して、十分なアノテーションからトレーニングされた2Dベースのボディパーサを3Dベースのボディパーサとして配置する、外部知識による3Dベースのボディパーサの能力を高める。
このようにして、低品質アノテーションによる悪影響を著しく低減する。
KTNの有効性は、DensePose-COCOデータセットの最先端手法よりも優れた性能で実証されている。
代表課題(人体セグメンテーション、人体部分セグメンテーション、キーポイント検出など)と2つの一般的な密集度推定パイプライン(RCNNと完全畳み込みフレームワーク)に関する広範囲にわたるアブレーション研究と実験結果は、提案手法の一般化可能性を示している。
関連論文リスト
- Label-Efficient 3D Brain Segmentation via Complementary 2D Diffusion Models with Orthogonal Views [10.944692719150071]
相補的な2次元拡散モデルを用いた新しい3次元脳分割法を提案する。
私たちのゴールは、個々の主題に対して完全なラベルを必要とせずに、信頼性の高いセグメンテーション品質を達成することです。
論文 参考訳(メタデータ) (2024-07-17T06:14:53Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Weakly-supervised Cross-view 3D Human Pose Estimation [16.045255544594625]
弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。
本手法は,最先端の性能を弱い教師付きで達成することができる。
本手法を標準ベンチマークデータセットHuman3.6Mで評価する。
論文 参考訳(メタデータ) (2021-05-23T08:16:25Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。