論文の概要: GraphEnet: Event-driven Human Pose Estimation with a Graph Neural Network
- arxiv url: http://arxiv.org/abs/2510.07990v1
- Date: Thu, 09 Oct 2025 09:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.985618
- Title: GraphEnet: Event-driven Human Pose Estimation with a Graph Neural Network
- Title(参考訳): GraphEnet: グラフニューラルネットワークによるイベント駆動型ヒューマンポース推定
- Authors: Gaurvi Goyal, Pham Cong Thuong, Arren Glover, Masayoshi Mizuno, Chiara Bartolozzi,
- Abstract要約: 本稿では,グラフニューラルネットワーク,GraphEnetを提案し,一人の人物の2次元人文を高頻度で推定する。
このアーキテクチャには、人間のポーズを推定するための信頼に基づくプールを備えた、新しいオフセットベクトル学習パラダイムが組み込まれている。
これは、ヒューマンポーズ推定のためのイベントデータにグラフニューラルネットワークを適用する最初の作業である。
- 参考スコア(独自算出の注目度): 11.824675860303607
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human Pose Estimation is a crucial module in human-machine interaction applications and, especially since the rise in deep learning technology, robust methods are available to consumers using RGB cameras and commercial GPUs. On the other hand, event-based cameras have gained popularity in the vision research community for their low latency and low energy advantages that make them ideal for applications where those resources are constrained like portable electronics and mobile robots. In this work we propose a Graph Neural Network, GraphEnet, that leverages the sparse nature of event camera output, with an intermediate line based event representation, to estimate 2D Human Pose of a single person at a high frequency. The architecture incorporates a novel offset vector learning paradigm with confidence based pooling to estimate the human pose. This is the first work that applies Graph Neural Networks to event data for Human Pose Estimation. The code is open-source at https://github.com/event-driven-robotics/GraphEnet-NeVi-ICCV2025.
- Abstract(参考訳): ヒューマンポース推定は人間と機械のインタラクションアプリケーションにおいて重要なモジュールであり、特にディープラーニング技術の台頭以来、RGBカメラと商用GPUを使用した堅牢な手法が消費者に提供されている。
一方、イベントベースのカメラは、低レイテンシと低エネルギーの利点によりビジョン研究コミュニティで人気を集めており、それらリソースがポータブルエレクトロニクスやモバイルロボットのように制約されるアプリケーションに最適である。
本研究では,1人の人物の2次元人物空間を高頻度で推定するために,中間線に基づくイベント表現を用いて,イベントカメラ出力のスパース性を活用するグラフニューラルネットワークGraphEnetを提案する。
このアーキテクチャには、人間のポーズを推定するための信頼に基づくプールを備えた、新しいオフセットベクトル学習パラダイムが組み込まれている。
これは、ヒューマンポーズ推定のためのイベントデータにグラフニューラルネットワークを適用する最初の作業である。
コードはhttps://github.com/event-driven-robotics/GraphEnet-NeVi-ICCV2025で公開されている。
関連論文リスト
- Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Appearance-based gaze estimation enhanced with synthetic images using
deep neural networks [0.0]
人工ニューラルネットワークを用いて、別々に収穫された目の視線を推定するシステムを構築した。
提案手法は特別なハードウェアや赤外線フィルタを必要としない。
MetaHumanツールを使用して、57,000人以上の顔の大規模な合成データセットも生成した。
論文 参考訳(メタデータ) (2023-11-23T19:44:50Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Highly Efficient 3D Human Pose Tracking from Events with Spiking Spatiotemporal Transformer [23.15179173446486]
イベントのみに基づく3次元ポーズトラッキングのための,最初のスパーススパイキングニューラルネットワーク(SNN)フレームワークを紹介する。
提案手法では,スパースデータを高密度なフォーマットに変換したり,追加のイメージを組み込む必要がなくなり,入力イベントの本質的にの空間性を完全に活用することが可能になる。
実証実験では、既存の最先端(SOTA)ANN方式よりも、19.1%のFLOPと3.6%のコストエネルギーしか必要とせず、我々のアプローチの優位性を実証した。
論文 参考訳(メタデータ) (2023-03-16T22:56:12Z) - 3D Human Pose Regression using Graph Convolutional Network [68.8204255655161]
本稿では,2次元のポーズから3次元のポーズ回帰を行うために,PoseGraphNetというグラフ畳み込みネットワークを提案する。
我々のモデルの性能は最先端に近いが、パラメータははるかに少ない。
論文 参考訳(メタデータ) (2021-05-21T14:41:31Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Dynamic Multiscale Graph Neural Networks for 3D Skeleton-Based Human
Motion Prediction [102.9787019197379]
本研究では3次元骨格に基づく人体動作を予測するために,新しい動的マルチスケールグラフニューラルネットワーク(DMGNN)を提案する。
モデルはアクションカテゴリに依存しないもので、エンコーダ/デコーダフレームワークに従う。
提案したDMGNNは,短期および長期の予測において最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-03-17T02:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。