論文の概要: Mean of Means: A 10-dollar Solution for Human Localization with Calibration-free and Unconstrained Camera Settings
- arxiv url: http://arxiv.org/abs/2407.20870v1
- Date: Tue, 30 Jul 2024 14:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:00:05.453544
- Title: Mean of Means: A 10-dollar Solution for Human Localization with Calibration-free and Unconstrained Camera Settings
- Title(参考訳): Mean of Means: キャリブレーションのない、制約なしのカメラ設定による、人間の位置決めのための10ドルのソリューション
- Authors: Tianyi Zhang, Wengyu Zhang, Xulu Zhang, Jiaxin Wu, Xiao-Yong Wei, Jiannong Cao, Qing Li,
- Abstract要約: 実験の結果、0.3mの範囲で95%、0.5mの範囲で100%近い精度でヒトの局在精度が示された。
本研究では, 人体上のすべての点を, 物体の幾何学的中心を中心とした分布によって生成される観測として考察する確率論的アプローチを提案する。
これにより、サンプリングを大幅に改善し、興味のある点ごとのサンプル数を数百から数十億に増やすことができます。
- 参考スコア(独自算出の注目度): 22.492366506326718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate human localization is crucial for various applications, especially in the Metaverse era. Existing high precision solutions rely on expensive, tag-dependent hardware, while vision-based methods offer a cheaper, tag-free alternative. However, current vision solutions based on stereo vision face limitations due to rigid perspective transformation principles and error propagation in multi-stage SVD solvers. These solutions also require multiple high-resolution cameras with strict setup constraints. To address these limitations, we propose a probabilistic approach that considers all points on the human body as observations generated by a distribution centered around the body's geometric center. This enables us to improve sampling significantly, increasing the number of samples for each point of interest from hundreds to billions. By modeling the relation between the means of the distributions of world coordinates and pixel coordinates, leveraging the Central Limit Theorem, we ensure normality and facilitate the learning process. Experimental results demonstrate human localization accuracy of 95% within a 0.3m range and nearly 100% accuracy within a 0.5m range, achieved at a low cost of only 10 USD using two web cameras with a resolution of 640x480 pixels.
- Abstract(参考訳): 正確な人的位置決めは,特にメタバース時代において,様々な応用に不可欠である。
既存の高精度ソリューションは高価でタグに依存しないハードウェアに依存し、視覚ベースの手法は安価でタグなしの代替手段を提供する。
しかし、立体視に基づく現在の視覚解は、多段階のSVD解法における厳密な視点変換原理と誤り伝播による制限に直面している。
これらのソリューションには、厳密な設定制約のある複数の高解像度カメラも必要である。
これらの制約に対処するために,人間の体上のすべての点を,身体の幾何学的中心を中心とした分布によって生成される観測として考察する確率論的アプローチを提案する。
これにより、サンプリングを大幅に改善し、興味のある点ごとのサンプル数を数百から数十億に増やすことができます。
本研究では,世界座標と画素座標の関係をモデル化し,中央極限定理を利用して正規性を確保し,学習プロセスの促進を図る。
実験の結果,0.3m範囲で95%,0.5m範囲で100%近い精度で,解像度640×480ピクセルのウェブカメラを2台のウェブカメラで10USDの低コストで実現した。
関連論文リスト
- SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets [65.64958606221069]
マルチカメラシステムは、360ドル周の知覚を達成するために、しばしば自律走行に使用される。
360ドル(約3万3000円)のカメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。
重なりの重なりに多視点ステレオ結果を明示的に利用することにより、全画像の深さ推定を強化するステレオガイド深度推定法(SGDE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T02:41:37Z) - W-HMR: Monocular Human Mesh Recovery in World Space with Weak-Supervised Calibration [57.37135310143126]
モノクロ画像からの3次元運動回復のための従来の手法は、カメラ座標に依存するため、しばしば不足する。
W-HMRは、身体の歪み情報に基づいて「適切な」焦点長を予測する弱教師付き校正法である。
また,世界空間における可視的再構築のために,身体の向きを補正する OrientCorrect モジュールを提案する。
論文 参考訳(メタデータ) (2023-11-29T09:02:07Z) - Fixation-based Self-calibration for Eye Tracking in VR Headsets [0.21561701531034413]
提案手法は,ユーザの視点が自由に動けるという仮定に基づいている。
固定は、まず、補正されていない視線方向の時系列データから検出される。
キャリブレーションパラメータは、PoRsの分散メトリクスの和を最小化することにより最適化される。
論文 参考訳(メタデータ) (2023-11-01T09:34:15Z) - Vanishing Point Estimation in Uncalibrated Images with Prior Gravity
Direction [82.72686460985297]
我々はマンハッタンのフレームを推定する問題に取り組む。
2つの新しい2行解法が導出され、そのうちの1つは既存の解法に影響を与える特異点に悩まされない。
また、局所最適化の性能を高めるために、任意の行で実行される新しい最小でないメソッドを設計する。
論文 参考訳(メタデータ) (2023-08-21T13:03:25Z) - Continuous Cross-resolution Remote Sensing Image Change Detection [28.466756872079472]
実世界のアプリケーションは、空間解像度の異なるバイテンポラルイメージに基づいて、クロスレゾリューション変化検出(別名、CD)の必要性を高める。
本研究では,様々な解像度差の合成サンプルから得られたHR結果を連続的に予測するモデルを実現するために,スケール不変学習を提案する。
提案手法は,3つのデータセット上で,いくつかのバニラCD法と2つのクロスレゾリューションCD法より有意に優れていた。
論文 参考訳(メタデータ) (2023-05-24T04:57:24Z) - TransPose: Real-time 3D Human Translation and Pose Estimation with Six
Inertial Sensors [7.565581566766422]
今回紹介するTransPoseは、わずか6つの慣性測定ユニット(IMU)から90fps以上でフルモーションキャプチャを実行するDNNベースのアプローチです。
身体のポーズ推定には, 葉間関節位置を中間結果として推定する多段階ネットワークを提案する。
グローバル翻訳推定のために,グローバル翻訳を頑健に解くためのサポートフット法とRNN法を提案する。
論文 参考訳(メタデータ) (2021-05-10T18:41:42Z) - Estimating Egocentric 3D Human Pose in Global Space [70.7272154474722]
本稿では,魚眼カメラを用いた自己中心型3次元体姿勢推定法を提案する。
提案手法は, 定量的, 定性的に, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-04-27T20:01:57Z) - Calibrated and Partially Calibrated Semi-Generalized Homographies [65.29477277713205]
視点と一般化カメラから半一般化ホモグラフィーを推定するための最初の最小解を提案する。
提案した解法は、多くの合成および実世界の実験で実証されたように安定かつ効率的である。
論文 参考訳(メタデータ) (2021-03-11T08:56:24Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。