論文の概要: Self-supervision on Unlabelled OR Data for Multi-person 2D/3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2007.08354v2
- Date: Fri, 20 Aug 2021 10:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:23:52.249649
- Title: Self-supervision on Unlabelled OR Data for Multi-person 2D/3D Human Pose
Estimation
- Title(参考訳): マルチパーソン2D/3D人物姿勢推定のための不正ORデータの自己監督
- Authors: Vinkle Srivastav, Afshin Gangi, Nicolas Padoy
- Abstract要約: 2D/3D人間のポーズ推定は手術室のための新しいインテリジェントなツールを開発するために必要である。
本稿では,教師/学生のフレームワークにおける知識蒸留を用いて,大規模な非注釈データセットに存在する知識を活用することを提案する。
この効果的なセルフスーパービジョン戦略を用いてトレーニングされた容易にデプロイ可能なネットワークは、公開MVORデータセットの拡張であるemphMVOR+の教師ネットワークと同等に実行される。
- 参考スコア(独自算出の注目度): 2.8802646903517957
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 2D/3D human pose estimation is needed to develop novel intelligent tools for
the operating room that can analyze and support the clinical activities. The
lack of annotated data and the complexity of state-of-the-art pose estimation
approaches limit, however, the deployment of such techniques inside the OR. In
this work, we propose to use knowledge distillation in a teacher/student
framework to harness the knowledge present in a large-scale non-annotated
dataset and in an accurate but complex multi-stage teacher network to train a
lightweight network for joint 2D/3D pose estimation. The teacher network also
exploits the unlabeled data to generate both hard and soft labels useful in
improving the student predictions. The easily deployable network trained using
this effective self-supervision strategy performs on par with the teacher
network on \emph{MVOR+}, an extension of the public MVOR dataset where all
persons have been fully annotated, thus providing a viable solution for
real-time 2D/3D human pose estimation in the OR.
- Abstract(参考訳): 2d/3d人間のポーズ推定は,臨床活動の分析と支援が可能な手術室のための新しい知的ツールの開発に必要である。
注釈付きデータの欠如と最先端のポーズ推定アプローチの複雑さは、or内にそのようなテクニックを展開することを制限する。
本研究では,教師・学生の枠組みで知識蒸留を活用し,大規模非注釈データセットに存在する知識を活用し,高精度かつ複雑な多段階教師ネットワークを用いて,2d/3dポーズ推定のための軽量ネットワークを訓練することを提案する。
教師ネットワークは、未ラベルのデータを利用して、生徒の予測を改善するのに役立つハードラベルとソフトラベルの両方を生成する。
この効果的なセルフスーパービジョン戦略を用いてトレーニングされた容易にデプロイ可能なネットワークは、すべての人が完全に注釈付けされた公開MVORデータセットの拡張である \emph{MVOR+} 上の教師ネットワークと同等に動作し、ORにおけるリアルタイム2D/3D人間のポーズ推定に実行可能なソリューションを提供する。
関連論文リスト
- Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Invariant Teacher and Equivariant Student for Unsupervised 3D Human Pose
Estimation [28.83582658618296]
3次元人間ポーズ推定のための教師学習フレームワークに基づく新しい手法を提案する。
本手法は最先端の教師なし手法と比較して3次元関節予測誤差を11.4%削減する。
論文 参考訳(メタデータ) (2020-12-17T05:32:44Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - 3D Human Pose Estimation using Spatio-Temporal Networks with Explicit
Occlusion Training [40.933783830017035]
近年の大きな進歩にもかかわらず、モノラルなタスクから3Dのポーズを推定することは依然として難しい課題である。
頑健な3次元ポーズ推定のための時間的ビデオネットワークを提案する。
本研究では,各フレームに2次元関節やキーポイントの予測,および3次元関節やキーポイントを推定するために,多段階の時間的畳み込みネットワーク(TCN)を適用した。
論文 参考訳(メタデータ) (2020-04-07T09:12:12Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。