論文の概要: Sixth-Sense: Self-Supervised Learning of Spatial Awareness of Humans from a Planar Lidar
- arxiv url: http://arxiv.org/abs/2502.21029v1
- Date: Fri, 28 Feb 2025 13:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:40:28.080010
- Title: Sixth-Sense: Self-Supervised Learning of Spatial Awareness of Humans from a Planar Lidar
- Title(参考訳): 6感:平面ライダーによる人間の空間認識の自己教師付き学習
- Authors: Simone Arreghini, Nicholas Carlotti, Mirko Nava, Antonio Paolillo, Alessandro Giusti,
- Abstract要約: ほとんどの商用サービスロボットは視野が狭いカメラを備えており、ユーザーが他の方向から近づいていると目が見えない。
本稿では,RGB-Dカメラを監視源として用いて,人間を検知し,その2Dポーズを1次元LiDARデータから推定する自己教師型アプローチを提案する。
提案モデルでは, 距離13cm, 方位44degの平均絶対誤差を保ちながら, 71%の精度と80%のリコールで1次元LiDARデータから一方向の人間を検出できる。
- 参考スコア(独自算出の注目度): 47.992786505913955
- License:
- Abstract: Localizing humans is a key prerequisite for any service robot operating in proximity to people. In these scenarios, robots rely on a multitude of state-of-the-art detectors usually designed to operate with RGB-D cameras or expensive 3D LiDARs. However, most commercially available service robots are equipped with cameras with a narrow field of view, making them blind when a user is approaching from other directions, or inexpensive 1D LiDARs whose readings are difficult to interpret. To address these limitations, we propose a self-supervised approach to detect humans and estimate their 2D pose from 1D LiDAR data, using detections from an RGB-D camera as a supervision source. Our approach aims to provide service robots with spatial awareness of nearby humans. After training on 70 minutes of data autonomously collected in two environments, our model is capable of detecting humans omnidirectionally from 1D LiDAR data in a novel environment, with 71% precision and 80% recall, while retaining an average absolute error of 13 cm in distance and 44{\deg} in orientation.
- Abstract(参考訳): 人間をローカライズすることは、人間に近いサービスロボットにとって重要な前提条件である。
これらのシナリオでは、ロボットは通常、RGB-Dカメラや高価な3D LiDARで動くように設計された最先端の検出器に頼っている。
しかし、ほとんどの商用サービスロボットは視野が狭いカメラを備えており、ユーザーが他の方向から近づいているときや、読み書きが難しい安価な1D LiDARでは見えない。
これらの制約に対処するために,RGB-Dカメラを監視源として利用して,人間を検知し,その2Dポーズを1D LiDARデータから推定する自己教師型アプローチを提案する。
我々のアプローチは、近くの人間の空間的認識をサービスロボットに提供することを目的としている。
2つの環境で70分間のデータを自律的に収集した後、新しい環境での1次元LiDARデータから人間を全方位で検出し、71%の精度と80%のリコールを行い、平均絶対誤差は13cm、方向は44{\degである。
関連論文リスト
- Exploring 3D Human Pose Estimation and Forecasting from the Robot's Perspective: The HARPER Dataset [52.22758311559]
本研究では,ユーザとスポット間のダイアドインタラクションにおける3次元ポーズ推定と予測のための新しいデータセットであるHARPERを紹介する。
キーノーベルティは、ロボットの視点、すなわちロボットのセンサーが捉えたデータに焦点を当てることである。
HARPERの基盤となるシナリオには15のアクションが含まれており、そのうち10つはロボットとユーザの間の物理的接触を含んでいる。
論文 参考訳(メタデータ) (2024-03-21T14:53:50Z) - Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文 参考訳(メタデータ) (2023-08-27T10:32:52Z) - Monocular 2D Camera-based Proximity Monitoring for Human-Machine
Collision Warning on Construction Sites [1.7223564681760168]
機械事故は建設現場の被害の主な原因の1つである。
人間と機械の衝突を避けるための労働者の近さをモニタリングすることは、建設安全管理に大きな関心を喚起した。
本研究では、通常の2Dカメラのみを用いた近接監視のための新しいフレームワークを提案し、リアルタイムの人間と機械の衝突警告を実現する。
論文 参考訳(メタデータ) (2023-05-29T07:47:27Z) - External Camera-based Mobile Robot Pose Estimation for Collaborative
Perception with Smart Edge Sensors [22.5939915003931]
本稿では,移動ロボットのポーズを多視点RGB画像を用いた静的カメラネットワークのアロセントリック座標で推定する手法を提案する。
画像はオンラインで、深層ニューラルネットワークによってスマートエッジセンサーでローカルに処理され、ロボットを検出する。
ロボットのポーズを正確に推定すると、その観察は同中心のシーンモデルに融合することができる。
論文 参考訳(メタデータ) (2023-03-07T11:03:33Z) - DensePose From WiFi [86.61881052177228]
WiFi信号の位相と振幅を24のヒト領域内の紫外線座標にマッピングするディープニューラルネットワークを開発した。
本モデルでは,複数の被験者の密集したポーズを,画像に基づくアプローチと同等の性能で推定することができる。
論文 参考訳(メタデータ) (2022-12-31T16:48:43Z) - Domain and Modality Gaps for LiDAR-based Person Detection on Mobile
Robots [91.01747068273666]
本稿では,移動ロボットのシナリオに着目した既存のLiDAR人物検出装置について検討する。
実験は3Dと2D LiDARのセンサー間のモダリティのギャップだけでなく、運転と移動ロボットのシナリオ間の領域ギャップを回避している。
その結果、LiDARに基づく人物検出の実践的な洞察を与え、関連する移動ロボットの設計と応用に関する情報決定を容易にする。
論文 参考訳(メタデータ) (2021-06-21T16:35:49Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Perceiving Humans: from Monocular 3D Localization to Social Distancing [93.03056743850141]
本稿では,人間の3次元位置と身体の向きを1つの画像から知覚する,コスト効率の高い視覚ベースの新しい手法を提案する。
我々は,「社会的距離」という概念を,単純な位置に基づくルールとは対照的に,社会的相互作用の一形態として再考することが可能であることを示す。
論文 参考訳(メタデータ) (2020-09-01T10:12:30Z) - Object-Independent Human-to-Robot Handovers using Real Time Robotic
Vision [6.089651609511804]
本稿では,ロボットビジョンと操作を用いた安全でオブジェクトに依存しないロボットハンドオーバのアプローチを提案する。
13の物体を用いた実験で、このロボットは81.9%の試験で人間から物体を取り出すことに成功した。
論文 参考訳(メタデータ) (2020-06-02T17:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。