論文の概要: Appearance-based gaze estimation enhanced with synthetic images using
deep neural networks
- arxiv url: http://arxiv.org/abs/2311.14175v2
- Date: Wed, 28 Feb 2024 21:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:11:52.541157
- Title: Appearance-based gaze estimation enhanced with synthetic images using
deep neural networks
- Title(参考訳): 深部ニューラルネットワークを用いた合成画像による外見に基づく視線推定
- Authors: Dmytro Herashchenko and Igor Farka\v{s}
- Abstract要約: 人工ニューラルネットワークを用いて、別々に収穫された目の視線を推定するシステムを構築した。
提案手法は特別なハードウェアや赤外線フィルタを必要としない。
MetaHumanツールを使用して、57,000人以上の顔の大規模な合成データセットも生成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human eye gaze estimation is an important cognitive ingredient for successful
human-robot interaction, enabling the robot to read and predict human behavior.
We approach this problem using artificial neural networks and build a modular
system estimating gaze from separately cropped eyes, taking advantage of
existing well-functioning components for face detection (RetinaFace) and head
pose estimation (6DRepNet). Our proposed method does not require any special
hardware or infrared filters but uses a standard notebook-builtin RGB camera,
as often approached with appearance-based methods. Using the MetaHuman tool, we
also generated a large synthetic dataset of more than 57,000 human faces and
made it publicly available. The inclusion of this dataset (with eye gaze and
head pose information) on top of the standard Columbia Gaze dataset into
training the model led to better accuracy with a mean average error below two
degrees in eye pitch and yaw directions, which compares favourably to related
methods. We also verified the feasibility of our model by its preliminary
testing in real-world setting using the builtin 4K camera in NICO semi-humanoid
robot's eye.
- Abstract(参考訳): 人間の視線推定は人間とロボットの相互作用を成功させる上で重要な認知要素であり、ロボットは人間の行動を読み、予測することができる。
ニューラルネットワークを用いてこの問題にアプローチし,顔検出 (RetinaFace) と頭部ポーズ推定 (6DRepNet) のために,既存のよく機能するコンポーネントを活用して,切り取った目から視線を推定するモジュールシステムを構築する。
提案手法では,特殊なハードウェアや赤外線フィルタは必要とせず,通常,ノートブック内蔵のrgbカメラを用いる。
MetaHumanツールを使用して、57,000人以上の顔の大規模な合成データセットを生成し、公開しました。
標準的なコロンビアの視線データセットの上にこのデータセット(視線と頭部のポーズ情報を含む)を組み込んでモデルのトレーニングを行うことで、平均平均誤差が2度未満で精度が向上し、関連する方法と比較した。
また,nicoセミヒューマノイドロボットの眼球に内蔵された4kカメラを用いて実世界における予備テストを行い,本モデルの有効性を検証した。
関連論文リスト
- Exploring 3D Human Pose Estimation and Forecasting from the Robot's Perspective: The HARPER Dataset [52.22758311559]
本研究では,ユーザとスポット間のダイアドインタラクションにおける3次元ポーズ推定と予測のための新しいデータセットであるHARPERを紹介する。
キーノーベルティは、ロボットの視点、すなわちロボットのセンサーが捉えたデータに焦点を当てることである。
HARPERの基盤となるシナリオには15のアクションが含まれており、そのうち10つはロボットとユーザの間の物理的接触を含んでいる。
論文 参考訳(メタデータ) (2024-03-21T14:53:50Z) - Procedural Humans for Computer Vision [1.9550079119934403]
顔と身体のパラメトリックなモデルを構築し,このモデルに基づいて人間の現実的な画像を生成する。
本研究は,Wood et al. のパイプライン上に構築し,人体全体の合成画像を生成することにより,全体を含むように拡張可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T15:44:48Z) - Human keypoint detection for close proximity human-robot interaction [29.99153271571971]
近接ロボット相互作用の文脈における最先端人間のキーポイント検出器の性能について検討した。
MMPoseとAlphaPoseは近接して全体キーポイント検出器を動作させたが、どちらも指検出に難しかった。
本稿では,MMPose または AlphaPose の身体用と MediaPipe を,最も正確かつ堅牢な検出が可能な単一のフレームワークで組み合わせて提案する。
論文 参考訳(メタデータ) (2022-07-15T20:33:29Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。