論文の概要: 3D Human Shape and Pose from a Single Low-Resolution Image with
Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2007.13666v2
- Date: Sun, 9 Aug 2020 17:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 08:19:06.768424
- Title: 3D Human Shape and Pose from a Single Low-Resolution Image with
Self-Supervised Learning
- Title(参考訳): 自己監督学習による低解像度画像からの3次元人物形状と姿勢
- Authors: Xiangyu Xu, Hao Chen, Francesc Moreno-Noguer, Laszlo A. Jeni, Fernando
De la Torre
- Abstract要約: 3次元人物形状とポーズ推定のための既存のディープラーニング手法は、比較的高解像度な入力画像に依存している。
本稿では,レゾリューション・アウェア・ネットワーク,セルフ・スーパービジョン・ロス,コントラッシブ・ラーニング・スキームからなるRCC-Netを提案する。
これら2つの新たなトレーニング損失は,3次元形状を学習し,弱教師ありの姿勢を示す。
- 参考スコア(独自算出の注目度): 105.49950571267715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human shape and pose estimation from monocular images has been an active
area of research in computer vision, having a substantial impact on the
development of new applications, from activity recognition to creating virtual
avatars. Existing deep learning methods for 3D human shape and pose estimation
rely on relatively high-resolution input images; however, high-resolution
visual content is not always available in several practical scenarios such as
video surveillance and sports broadcasting. Low-resolution images in real
scenarios can vary in a wide range of sizes, and a model trained in one
resolution does not typically degrade gracefully across resolutions. Two common
approaches to solve the problem of low-resolution input are applying
super-resolution techniques to the input images which may result in visual
artifacts, or simply training one model for each resolution, which is
impractical in many realistic applications. To address the above issues, this
paper proposes a novel algorithm called RSC-Net, which consists of a
Resolution-aware network, a Self-supervision loss, and a Contrastive learning
scheme. The proposed network is able to learn the 3D body shape and pose across
different resolutions with a single model. The self-supervision loss encourages
scale-consistency of the output, and the contrastive learning scheme enforces
scale-consistency of the deep features. We show that both these new training
losses provide robustness when learning 3D shape and pose in a
weakly-supervised manner. Extensive experiments demonstrate that the RSC-Net
can achieve consistently better results than the state-of-the-art methods for
challenging low-resolution images.
- Abstract(参考訳): 3次元人間の形状と単眼画像からのポーズ推定はコンピュータビジョンにおける活発な研究領域であり、活動認識から仮想アバターの作成に至るまで、新しいアプリケーションの開発に大きな影響を与えている。
既存の3次元人体形状とポーズ推定の深層学習手法は比較的高解像度な入力画像に依存しているが、ビデオ監視やスポーツ放送といったいくつかの現実的なシナリオでは高解像度の視覚コンテンツが必ずしも利用できない。
実際のシナリオにおける低解像度の画像は、幅広いサイズで異なり、1つの解像度で訓練されたモデルは、通常、解像度を越えて優雅に劣化しない。
低解像度入力の問題を解決するための2つの一般的なアプローチは、視覚的アーティファクトにつながる可能性のある入力画像に超解像技術を適用するか、あるいは単に1つのモデルを各解像度で訓練するかである。
上記の問題に対処するため,本研究では,レゾリューション・アウェア・ネットワーク,自己超越損失,コントラッシブ・ラーニング・スキームからなるRCC-Netという新しいアルゴリズムを提案する。
提案したネットワークは3次元のボディ形状を学習し、単一のモデルで異なる解像度でポーズをとることができる。
自己超越損失は出力のスケール一貫性を促進し、対照的な学習手法は深い特徴のスケール一貫性を強制する。
これら2つの新たなトレーニング損失は,3次元形状を学習し,弱教師ありの姿勢を示す。
広範な実験により、rsc-netは低解像度画像に挑戦するための最先端の手法よりも一貫して優れた結果が得られることが証明された。
関連論文リスト
- Markerless Multi-view 3D Human Pose Estimation: a survey [0.49157446832511503]
3D人間のポーズ推定は、複数の関節を検知することで、シーン内のすべての個人の骨格を再構築することを目的としている。
3Dポーズの再構築に関わるすべての課題を解決する方法はまだない。
さらに、高い精度の3Dポーズを計算コストで迅速に推測できるアプローチを開発するためには、さらなる研究が必要である。
論文 参考訳(メタデータ) (2024-07-04T10:44:35Z) - 3D-Augmented Contrastive Knowledge Distillation for Image-based Object
Pose Estimation [4.415086501328683]
トレーニングプロセスでは3D形状が活用され、テストは依然として純粋に画像ベースである。
マルチモーダルモデルから画像ベースモデルへ3次元拡張画像表現を効果的に転送する新しいコントラスト型知識蒸留フレームワークを提案する。
我々は,既存のカテゴリに依存しない画像ベース手法と比較して,最先端の成果を大きなマージンで報告した。
論文 参考訳(メタデータ) (2022-06-02T16:46:18Z) - 3D Human Pose, Shape and Texture from Low-Resolution Images and Videos [107.36352212367179]
本稿では,解像度認識ネットワーク,自己スーパービジョン損失,コントラスト学習スキームからなるrsc-netを提案する。
提案手法は1つのモデルで異なる解像度で3次元物体のポーズと形状を学習できる。
低解像度映像を扱うRSC-Netを拡張し、低解像度入力からテクスチャ化された3D歩行者の再構築に適用します。
論文 参考訳(メタデータ) (2021-03-11T06:52:12Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - Learning Pose-invariant 3D Object Reconstruction from Single-view Images [61.98279201609436]
本稿では,単視点画像のみから3次元形状を学習する,より現実的な構成について検討する。
最大の難しさは、単一のビューイメージが提供できる制約の不足にある。
本稿では, 対角コンパクトな形状空間を学習するために, 効果的な対角領域混同法を提案する。
論文 参考訳(メタデータ) (2020-04-03T02:47:35Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。