論文の概要: Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2112.13709v1
- Date: Mon, 27 Dec 2021 14:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 19:24:55.854126
- Title: Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation
- Title(参考訳): 多視点3次元ポーズ推定のための擬似ラベルを用いた能動学習
- Authors: Qi Feng, Kun He, He Wen, Cem Keskin, Yuting Ye
- Abstract要約: マルチビュー環境での3次元ポーズ推定問題に対するアクティブラーニングの改良を行った。
既存の単一ビューAL戦略を効率的に拡張できるフレームワークを開発する。
我々は,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。
- 参考スコア(独自算出の注目度): 18.768030475943213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose estimation of the human body/hand is a fundamental problem in computer
vision, and learning-based solutions require a large amount of annotated data.
Given limited annotation budgets, a common approach to increasing label
efficiency is Active Learning (AL), which selects examples with the highest
value to annotate, but choosing the selection strategy is often nontrivial.
In this work, we improve Active Learning for the problem of 3D pose
estimation in a multi-view setting, which is of increasing importance in many
application scenarios. We develop a framework that allows us to efficiently
extend existing single-view AL strategies, and then propose two novel AL
strategies that make full use of multi-view geometry. Moreover, we demonstrate
additional performance gains by incorporating predicted pseudo-labels, which is
a form of self-training. Our system significantly outperforms baselines in 3D
body and hand pose estimation on two large-scale benchmarks: CMU Panoptic
Studio and InterHand2.6M. Notably, on CMU Panoptic Studio, we are able to match
the performance of a fully-supervised model using only 20% of labeled training
data.
- Abstract(参考訳): 人体/手の位置推定はコンピュータビジョンの基本的な問題であり、学習ベースのソリューションは大量の注釈付きデータを必要とする。
注釈予算が限られている場合、ラベル効率を向上させるための一般的なアプローチはアクティブラーニング(al)であり、注釈に最も価値のある例を選択するが、選択戦略を選択することはしばしば非自明である。
本研究では,多視点設定における3次元ポーズ推定問題に対するアクティブラーニングの改善について述べる。
我々は,既存の単一視点al戦略を効率的に拡張可能なフレームワークを開発し,マルチビュー幾何学をフルに活用する2つの新しいal戦略を提案する。
さらに,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。
このシステムは,CMU Panoptic Studio と InterHand2.6M の2つの大規模ベンチマークにおいて,3次元ボディでのベースラインと手ポーズの精度を著しく向上させる。
特に、CMU Panoptic Studioでは、ラベル付きトレーニングデータの20%しか使用せず、完全に教師されたモデルのパフォーマンスにマッチできる。
関連論文リスト
- Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Unsupervised Learning on 3D Point Clouds by Clustering and Contrasting [11.64827192421785]
教師なし表現学習は、人間の介入なしに機能を自動抽出するための有望な方向である。
本稿では、ポイントワイドおよびグローバルな特徴の学習を行うために、textbfConClu という、一般的な教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-05T12:54:17Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。