Fugu-MT 論文翻訳(概要): 3D Human Pose Estimation in Multi-View Operating Room Videos Using Differentiable Camera Projections

論文の概要: 3D Human Pose Estimation in Multi-View Operating Room Videos Using Differentiable Camera Projections

arxiv url: http://arxiv.org/abs/2210.11826v1
Date: Fri, 21 Oct 2022 09:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 15:21:46.967991
Title: 3D Human Pose Estimation in Multi-View Operating Room Videos Using Differentiable Camera Projections
Title（参考訳）: 可変カメラ投影を用いた多視点手術室映像における3次元人物位置推定
Authors: Beerend G.A. Gerats, Jelmer M. Wolterink, Ivo A.M.J. Broeders
Abstract要約: 本稿では,3次元の損失に基づいて2次元CNNをエンドツーエンドにトレーニングすることで,3次元のローカライゼーションを直接最適化することを提案する。 MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。
参考スコア（独自算出の注目度）: 2.486571221735935
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: 3D human pose estimation in multi-view operating room (OR) videos is a relevant asset for person tracking and action recognition. However, the surgical environment makes it challenging to find poses due to sterile clothing, frequent occlusions, and limited public data. Methods specifically designed for the OR are generally based on the fusion of detected poses in multiple camera views. Typically, a 2D pose estimator such as a convolutional neural network (CNN) detects joint locations. Then, the detected joint locations are projected to 3D and fused over all camera views. However, accurate detection in 2D does not guarantee accurate localisation in 3D space. In this work, we propose to directly optimise for localisation in 3D by training 2D CNNs end-to-end based on a 3D loss that is backpropagated through each camera's projection parameters. Using videos from the MVOR dataset, we show that this end-to-end approach outperforms optimisation in 2D space.
Abstract（参考訳）: マルチビューオペレーティングルーム(OR)ビデオにおける3次元人間のポーズ推定は、人物追跡と行動認識の関連資産である。しかし, 手術環境は, 服の無菌化, 頻繁な閉塞, 公共データ不足などにより, ポーズを見つけるのが困難である。 OR用に特別に設計された方法は、一般的に複数のカメラビューで検出されたポーズの融合に基づいている。通常、畳み込みニューラルネットワーク(CNN)のような2Dポーズ推定器は関節位置を検出する。検出された関節位置は3Dに投影され、すべてのカメラビューに融合する。しかし、2dでの正確な検出は、3d空間における正確な局所化を保証しない。本研究では,各カメラの投影パラメータによって逆伝搬される3D損失に基づいて,エンドツーエンドの2D CNNをトレーニングすることにより,3Dのローカライゼーションを直接最適化することを提案する。 MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。

関連論文リスト

SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。 SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文参考訳（メタデータ） (2024-08-19T17:53:10Z)
A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文参考訳（メタデータ） (2023-11-06T18:04:13Z)
Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文参考訳（メタデータ） (2023-01-12T18:01:28Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。本手法は3次元空間での予測を直接操作する。我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文参考訳（メタデータ） (2021-10-13T17:59:35Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2021-08-05T08:35:44Z)
Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated Convolution [34.301501457959056]
本稿では,2次元関節を3次元に変換するために,ゲート型畳み込みモジュールを用いた時間回帰ネットワークを提案する。また, 正規化ポーズを大域軌跡に変換するために, 単純かつ効果的な局所化手法も実施した。提案手法は,最先端の2D-to-3Dポーズ推定法よりも優れている。
論文参考訳（メタデータ） (2020-10-31T04:35:24Z)
VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文参考訳（メタデータ） (2020-04-13T23:50:01Z)
Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文参考訳（メタデータ） (2020-03-25T00:26:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。