論文の概要: Upper-Body Pose-based Gaze Estimation for Privacy-Preserving 3D Gaze Target Detection
- arxiv url: http://arxiv.org/abs/2409.17886v1
- Date: Thu, 26 Sep 2024 14:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 17:47:25.936079
- Title: Upper-Body Pose-based Gaze Estimation for Privacy-Preserving 3D Gaze Target Detection
- Title(参考訳): プライバシ保存型3次元ゲジターゲット検出のための上層体電位に基づくゲジ推定
- Authors: Andrea Toaiari, Vittorio Murino, Marco Cristani, Cigdem Beyan,
- Abstract要約: 既存のアプローチは、人の外見を分析することに大きく依存しており、主に視線目標を予測するために顔に焦点を当てている。
本稿では,人の上半身ポーズと利用可能な深度マップを利用して3次元視線方向を抽出する手法を提案する。
我々は、最も包括的にアクセス可能な3D視線目標検出データセット上で、最先端の成果を示す。
- 参考スコア(独自算出の注目度): 19.478147736434394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Gaze Target Detection (GTD), i.e., determining where a person is looking within a scene from an external viewpoint, is a challenging task, particularly in 3D space. Existing approaches heavily rely on analyzing the person's appearance, primarily focusing on their face to predict the gaze target. This paper presents a novel approach to tackle this problem by utilizing the person's upper-body pose and available depth maps to extract a 3D gaze direction and employing a multi-stage or an end-to-end pipeline to predict the gazed target. When predicted accurately, the human body pose can provide valuable information about the head pose, which is a good approximation of the gaze direction, as well as the position of the arms and hands, which are linked to the activity the person is performing and the objects they are likely focusing on. Consequently, in addition to performing gaze estimation in 3D, we are also able to perform GTD simultaneously. We demonstrate state-of-the-art results on the most comprehensive publicly accessible 3D gaze target detection dataset without requiring images of the person's face, thus promoting privacy preservation in various application contexts. The code is available at https://github.com/intelligolabs/privacy-gtd-3D.
- Abstract(参考訳): GTD(Gaze Target Detection)は、特に3次元空間において、外部視点からシーン内をどこに見ているかを決定する。
既存のアプローチは、人の外見を分析することに大きく依存しており、主に視線目標を予測するために顔に焦点を当てている。
本稿では、人の上半身のポーズと利用可能な深度マップを利用して3次元視線方向を抽出し、多段もしくはエンドツーエンドのパイプラインを用いて視線目標を予測することによって、この問題に対処する新しいアプローチを提案する。
正確に予測すると、人体ポーズは、視線方向の良好な近似である頭部ポーズや、腕と手の位置についての貴重な情報を提供することができる。
したがって、3Dで視線推定を行うだけでなく、GTDを同時に行うこともできる。
我々は、顔の画像を必要とすることなく、最も包括的にアクセス可能な3D視線目標検出データセット上で、最先端の成果を示し、様々なアプリケーションコンテキストにおけるプライバシー保護を促進する。
コードはhttps://github.com/intelligolabs/privacy-gtd-3Dで公開されている。
関連論文リスト
- Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention [86.39271731460927]
RGB-Dを用いた3次元物体検出における新たな課題として,「背中を支えたいもの」などの人間の意図に基づく3次元対象物検出がある。
ScanNetデータセットの1,042のシーンから209のきめ細かいクラスに関連付けられた44,990の意図的テキストからなる新しいIntent3Dデータセットを紹介した。
我々はまた、この意図に基づく検出問題に対処するために設計された、我々のユニークなアプローチであるIntentNetを提案する。
論文 参考訳(メタデータ) (2024-05-28T15:48:39Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - A Modular Multimodal Architecture for Gaze Target Prediction:
Application to Privacy-Sensitive Settings [18.885623017619988]
本稿では,アテンション機構を用いてマルチモーダルキューを組み合わせるモジュール型マルチモーダルアーキテクチャを提案する。
アーキテクチャは、個人が特定可能な情報を公開できない監視や健康といったプライバシーに敏感な状況において、自然に活用することができる。
論文 参考訳(メタデータ) (2023-07-11T10:30:33Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Unsupervised 3D Keypoint Discovery with Multi-View Geometry [104.76006413355485]
本研究では,多視点画像から人体上の3Dキーポイントを,監督やラベルなしで発見するアルゴリズムを提案する。
我々の手法は、他の最先端の教師なしアプローチと比較して、より解釈可能で正確な3Dキーポイントを発見する。
論文 参考訳(メタデータ) (2022-11-23T10:25:12Z) - PedRecNet: Multi-task deep neural network for full 3D human pose and
orientation estimation [0.0]
マルチタスクネットワークは、様々なディープニューラルネットワークベースの歩行者検出機能をサポートしている。
ネットワークアーキテクチャは比較的単純だが強力であり、さらなる研究や応用にも容易に適応できる。
論文 参考訳(メタデータ) (2022-04-25T10:47:01Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - 3D Object Detection for Autonomous Driving: A Survey [14.772968858398043]
3次元物体検出は、そのような知覚システムの中核となる基礎となる。
既存の努力にもかかわらず、ポイントクラウド上の3Dオブジェクト検出はまだ初期段階にある。
近年, プロスとコンスを用いた最先端検出法が提案されている。
論文 参考訳(メタデータ) (2021-06-21T03:17:20Z) - Perceiving Humans: from Monocular 3D Localization to Social Distancing [93.03056743850141]
本稿では,人間の3次元位置と身体の向きを1つの画像から知覚する,コスト効率の高い視覚ベースの新しい手法を提案する。
我々は,「社会的距離」という概念を,単純な位置に基づくルールとは対照的に,社会的相互作用の一形態として再考することが可能であることを示す。
論文 参考訳(メタデータ) (2020-09-01T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。