論文の概要: Gesture Matters: Pedestrian Gesture Recognition for AVs Through Skeleton Pose Evaluation
- arxiv url: http://arxiv.org/abs/2602.08479v1
- Date: Mon, 09 Feb 2026 10:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.170669
- Title: Gesture Matters: Pedestrian Gesture Recognition for AVs Through Skeleton Pose Evaluation
- Title(参考訳): ジェスチャ要素:骨格ポーズ評価によるAVに対する歩行者のジェスチャ認識
- Authors: Alif Rizqullah Mahdi, Mahdi Rezaei, Natasha Merat,
- Abstract要約: ジェスチャーは、交通における非言語コミュニケーションの重要な要素であり、しばしば正式な交通規則が不十分な場合に歩行者とドライバーの相互作用を支援する。
本研究では,WIVWデータセットから実世界の映像系列に適用した2次元ポーズ推定を用いたジェスチャー分類フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.826087945130478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gestures are a key component of non-verbal communication in traffic, often helping pedestrian-to-driver interactions when formal traffic rules may be insufficient. This problem becomes more apparent when autonomous vehicles (AVs) struggle to interpret such gestures. In this study, we present a gesture classification framework using 2D pose estimation applied to real-world video sequences from the WIVW dataset. We categorise gestures into four primary classes (Stop, Go, Thank & Greet, and No Gesture) and extract 76 static and dynamic features from normalised keypoints. Our analysis demonstrates that hand position and movement velocity are especially discriminative in distinguishing between gesture classes, achieving a classification accuracy score of 87%. These findings not only improve the perceptual capabilities of AV systems but also contribute to the broader understanding of pedestrian behaviour in traffic contexts.
- Abstract(参考訳): ジェスチャーは、交通における非言語コミュニケーションの重要な要素であり、しばしば正式な交通規則が不十分な場合に歩行者とドライバーの相互作用を支援する。
この問題は、自動運転車(AV)がこのようなジェスチャーを解釈するのに苦労しているときに、より明らかになる。
本研究では,WIVWデータセットから実世界の映像系列に適用した2次元ポーズ推定を用いたジェスチャー分類フレームワークを提案する。
ジェスチャーを4つの主要クラス(Stop, Go, Thank & Greet, No Gesture)に分類し、正規化キーポイントから76の静的および動的特徴を抽出する。
分析の結果,手の位置と移動速度はジェスチャーの区別において特に差別的であり,分類精度は87%であった。
これらの知見は,AVシステムの知覚能力の向上だけでなく,交通状況における歩行者行動のより広範な理解にも寄与する。
関連論文リスト
- MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning [66.53533434848369]
密集した表現を学習する動き誘導型自己学習フレームワークを提案する。
6つの画像およびビデオデータセットと4つの評価ベンチマークにおいて、最先端を1%から6%改善する。
論文 参考訳(メタデータ) (2025-06-10T11:20:32Z) - GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction [5.647541727494757]
GTransPDMは多モード特徴を利用した歩行者横断意図予測のために開発された。
PIEデータセットでは92%の精度で、JAADデータセットでは87%の精度で処理速度は0.05msである。
論文 参考訳(メタデータ) (2024-09-30T12:02:17Z) - GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior
Prediction [12.613528624623514]
本研究は,自律運転における歩行者行動予測の文脈において,視覚言語モデル(VLM)の定量的および定性的な評価を行った最初のものである。
JAAD と WiDEVIEW を用いて GPT-4V の評価を行った。
このモデルは、ゼロショット方式で57%の精度で達成されているが、それでもなお、歩行者の横断行動を予測する最先端のドメイン固有モデル(70%)の背後にある。
論文 参考訳(メタデータ) (2023-11-24T18:02:49Z) - A Fine-Grained Visual Attention Approach for Fingerspelling Recognition
in the Wild [17.8181080354116]
指音の自動認識は、聴覚障害者との対話におけるコミュニケーション障壁の解消に役立つ。
指先認識における主な課題は、ジェスチャーのあいまいさと手の強い明瞭さである。
野生データセットのシーケンシャル・トゥ・シークエンス予測タスクにTransformerモデルを用いた微細な視覚的注意メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:15:35Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting [91.69900691029908]
我々は、個々の動きとシーン占有マップの両方を予測することを提唱する。
歩行者の相対的な空間情報を保存するScene-Actor Graph Neural Network (SA-GNN)を提案する。
2つの大規模な実世界のデータセットで、我々のシーン占有率予測が最先端のモーション予測手法よりも正確でより校正されていることを示した。
論文 参考訳(メタデータ) (2021-01-07T06:08:21Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Domain-aware Visual Bias Eliminating for Generalized Zero-Shot Learning [150.42959029611657]
ドメイン対応ビジュアルバイアス除去(DVBE)ネットワークは2つの相補的な視覚表現を構成する。
目に見えない画像に対しては、最適なセマンティック・視覚アライメントアーキテクチャを自動で検索する。
論文 参考訳(メタデータ) (2020-03-30T08:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。