論文の概要: Multi-camera Torso Pose Estimation using Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2007.14126v1
- Date: Tue, 28 Jul 2020 11:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:00:34.790876
- Title: Multi-camera Torso Pose Estimation using Graph Neural Networks
- Title(参考訳): グラフニューラルネットワークを用いたマルチカメラトーソ電位推定
- Authors: Daniel Rodriguez-Criado, Pilar Bachiller, Pablo Bustos, George
Vogiatzis, Luis J. Manso
- Abstract要約: 人間の位置と方向を推定することは、サービスと補助ロボットにとって必須のスキルである。
本稿では,複数のカメラソースから取得した情報をマージするために,グラフニューラルネットワークを用いた提案を行った。
実験はアパートで3台のカメラで行われ、2つの異なるグラフニューラルネットワーク実装と第3のアーキテクチャをベンチマークした。
- 参考スコア(独自算出の注目度): 3.7431113857875746
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Estimating the location and orientation of humans is an essential skill for
service and assistive robots. To achieve a reliable estimation in a wide area
such as an apartment, multiple RGBD cameras are frequently used. Firstly, these
setups are relatively expensive. Secondly, they seldom perform an effective
data fusion using the multiple camera sources at an early stage of the
processing pipeline. Occlusions and partial views make this second point very
relevant in these scenarios. The proposal presented in this paper makes use of
graph neural networks to merge the information acquired from multiple camera
sources, achieving a mean absolute error below 125 mm for the location and 10
degrees for the orientation using low-resolution RGB images. The experiments,
conducted in an apartment with three cameras, benchmarked two different graph
neural network implementations and a third architecture based on fully
connected layers. The software used has been released as open-source in a
public repository (https://github.com/vangiel/WheresTheFellow).
- Abstract(参考訳): 人間の位置と方向を推定することは、サービスと補助ロボットにとって必須のスキルである。
アパート等の広い範囲において信頼性の高い推定を実現するため、複数のrgbdカメラが頻繁に使用される。
まず、これらの設定は比較的高価である。
第2に、処理パイプラインの初期段階で、複数のカメラソースを使用して効果的なデータ融合を行うことはほとんどない。
閉塞と部分的ビューは、この2つ目のポイントをこれらのシナリオに非常に関連づける。
本稿では,複数のカメラから取得した情報をグラフニューラルネットワークを用いてマージし,低解像度のrgb画像を用いて125mm以下,方位10度以下で平均絶対誤差を達成することを提案する。
実験はアパートで3台のカメラで行われ、2つの異なるグラフニューラルネットワーク実装と、完全に接続された層に基づく第3のアーキテクチャをベンチマークした。
使用されているソフトウェアは、公開リポジトリ(https://github.com/vangiel/WheresTheFellow)でオープンソースとしてリリースされた。
関連論文リスト
- Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D
Images [58.720142291102135]
本稿では,屋内環境における視覚的位置認識能力の探索を目的とした,HPointLocという新しいデータセットを提案する。
データセットは人気のあるHabitatシミュレータに基づいており、独自のセンサーデータとオープンデータセットの両方を使用して屋内シーンを生成することができる。
論文 参考訳(メタデータ) (2022-12-30T12:20:56Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - Deep Camera Pose Regression Using Pseudo-LiDAR [1.5959408994101303]
我々は、奥行きマップを擬似LiDAR信号に変換することが、カメラのローカライゼーションタスクのより良い表現であることを示す。
擬似LiDARを用いて6DOFカメラのポーズを復元する新しいアーキテクチャであるFusionLocを提案する。
論文 参考訳(メタデータ) (2022-02-28T20:30:37Z) - Graph Neural Networks for Cross-Camera Data Association [3.490148531239259]
多くのマルチカメラコンピュータビジョンタスクには、クロスカメラ画像データアソシエーションが不可欠である。
本稿では,グローバルソリューションに着目したクロスカメラデータアソシエーションのための効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-17T09:52:39Z) - Unsupervised Depth Completion with Calibrated Backprojection Layers [79.35651668390496]
画像とスパース点雲から深度を推定するディープニューラルネットワークアーキテクチャを提案する。
LIDARや他のレンジセンサーから得られるビデオストリームとそれに対応するスパース点雲と、カメラの固有のキャリブレーションパラメータを用いてトレーニングする。
推論時に、トレーニングに用いるものと異なるカメラの校正を、スパース点雲と1つの画像とともにネットワークへの入力として行う。
論文 参考訳(メタデータ) (2021-08-24T05:41:59Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z) - On Localizing a Camera from a Single Image [9.049593493956008]
カメラが撮影した1枚の画像からカメラの位置を推定できることを示す。
人間の作業者による投影幾何学,ニューラルネットワーク,クラウドソースアノテーションの法的な組み合わせを用いて,テストデータセット内の画像の95%を12m以内の位置に配置できることを示す。
論文 参考訳(メタデータ) (2020-03-24T05:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。