論文の概要: MonStereo: When Monocular and Stereo Meet at the Tail of 3D Human
Localization
- arxiv url: http://arxiv.org/abs/2008.10913v2
- Date: Mon, 22 Mar 2021 16:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:01:37.440814
- Title: MonStereo: When Monocular and Stereo Meet at the Tail of 3D Human
Localization
- Title(参考訳): MonStereo: モノクラーとステレオが3Dの人間による位置決めに出会ったとき
- Authors: Lorenzo Bertoni, Sven Kreiss, Taylor Mordan, Alexandre Alahi
- Abstract要約: 本研究では, 単分子的および立体的両方の長所を生かした新しい統合学習フレームワークを提案する。
本手法は, 左右画像中の人間を関連づけ, (ii) 立体的環境下では隠蔽された, 遠方のケースを扱い, (iii) 単眼視射影の内在的曖昧さに対処する。
- 参考スコア(独自算出の注目度): 89.71926844164268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular and stereo visions are cost-effective solutions for 3D human
localization in the context of self-driving cars or social robots. However,
they are usually developed independently and have their respective strengths
and limitations. We propose a novel unified learning framework that leverages
the strengths of both monocular and stereo cues for 3D human localization. Our
method jointly (i) associates humans in left-right images, (ii) deals with
occluded and distant cases in stereo settings by relying on the robustness of
monocular cues, and (iii) tackles the intrinsic ambiguity of monocular
perspective projection by exploiting prior knowledge of the human height
distribution. We specifically evaluate outliers as well as challenging
instances, such as occluded and far-away pedestrians, by analyzing the entire
error distribution and by estimating calibrated confidence intervals. Finally,
we critically review the official KITTI 3D metrics and propose a practical 3D
localization metric tailored for humans.
- Abstract(参考訳): 単眼とステレオのビジョンは、自動運転車や社会ロボットの文脈における3D人間のローカライゼーションのための費用対効果のソリューションである。
しかし、通常は独立して開発され、それぞれの強みと限界を持つ。
本研究では,単眼とステレオの両者の強みを生かして3次元の人間像を定位する,新しい統一学習フレームワークを提案する。
共同で行う方法
(i)人間を左右のイメージで関連づける。
(ii)単眼手がかりのロバスト性に依拠してステレオ設定におけるオクルードと遠方の事例を扱っている。
(iii)身長分布の事前知識を生かして単眼的視点投影の本質的曖昧さに取り組む。
誤差分布全体を解析し, 校正された信頼区間を推定することで, 難易度や難易度を具体的に評価した。
最後に,KITTIの公式な3D測度を批判的にレビューし,人間に適した実用的な3D測度を提案する。
関連論文リスト
- Multi-view Pose Fusion for Occlusion-Aware 3D Human Pose Estimation [3.442372522693843]
本稿では,人間とロボットのコラボレーションの文脈におけるロバストな3次元ポーズ推定手法を提案する。
提案手法は,最先端の多視点人間のポーズ推定手法より優れている。
論文 参考訳(メタデータ) (2024-08-28T14:10:57Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - Ego3DPose: Capturing 3D Cues from Binocular Egocentric Views [9.476008200056082]
Ego3DPoseは、高度に高精度な両眼エゴ中心型3Dポーズ再構築システムである。
両眼熱マップと独立に手足のポーズを推定する経路を持つ2経路ネットワークアーキテクチャを提案する。
三角法を用いた新しい視点認識表現を提案し,手足の3次元方向を推定する。
論文 参考訳(メタデータ) (2023-09-21T10:34:35Z) - JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery [84.67823511418334]
本稿では,3次元メッシュ復元のためのTRansformersフレームワークを用いた3次元ジョイントコントラスト学習について述べる。
提案手法は,2D$&$3D対応結果を得るために,2Dおよび3D表現を融合するエンコーダ・デコーダ変換器アーキテクチャを含む。
論文 参考訳(メタデータ) (2023-07-31T02:58:58Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and
Bottom-Up Networks [33.974241749058585]
マルチパーソンポーズ推定は、人間の検出が間違っている可能性があり、人間の結合群は信頼できない。
既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。
我々は,その強みを生かすために,トップダウンアプローチとボトムアップアプローチの統合を提案する。
論文 参考訳(メタデータ) (2021-04-05T07:05:21Z) - Perceiving Humans: from Monocular 3D Localization to Social Distancing [93.03056743850141]
本稿では,人間の3次元位置と身体の向きを1つの画像から知覚する,コスト効率の高い視覚ベースの新しい手法を提案する。
我々は,「社会的距離」という概念を,単純な位置に基づくルールとは対照的に,社会的相互作用の一形態として再考することが可能であることを示す。
論文 参考訳(メタデータ) (2020-09-01T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。