論文の概要: A Spatio-Temporal Multilayer Perceptron for Gesture Recognition
- arxiv url: http://arxiv.org/abs/2204.11511v1
- Date: Mon, 25 Apr 2022 08:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 14:15:15.908790
- Title: A Spatio-Temporal Multilayer Perceptron for Gesture Recognition
- Title(参考訳): ジェスチャー認識のための時空間多層パーセプトロン
- Authors: Adrian Holzbock, Alexander Tsaregorodtsev, Youssef Dawoud, Klaus
Dietmayer, Vasileios Belagiannis
- Abstract要約: 自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
- 参考スコア(独自算出の注目度): 70.34489104710366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gesture recognition is essential for the interaction of autonomous vehicles
with humans. While the current approaches focus on combining several modalities
like image features, keypoints and bone vectors, we present neural network
architecture that delivers state-of-the-art results only with body skeleton
input data. We propose the spatio-temporal multilayer perceptron for gesture
recognition in the context of autonomous vehicles. Given 3D body poses over
time, we define temporal and spatial mixing operations to extract features in
both domains. Additionally, the importance of each time step is re-weighted
with Squeeze-and-Excitation layers. An extensive evaluation of the TCG and
Drive&Act datasets is provided to showcase the promising performance of our
approach. Furthermore, we deploy our model to our autonomous vehicle to show
its real-time capability and stable execution.
- Abstract(参考訳): ジェスチャー認識は、自動運転車と人間の相互作用に不可欠である。
現在のアプローチでは,画像特徴,キーポイント,骨ベクトルなどのモダリティに注目する一方で,体骨格入力データのみを用いて最先端の結果を提供するニューラルネットワークアーキテクチャを提案する。
自律走行車におけるジェスチャー認識のための時空間多層パーセプトロンを提案する。
3次元物体が時間とともに作用すると、時間と空間の混合演算を定義し、両方の領域の特徴を抽出する。
さらに、各タイムステップの重要性は、Squeeze-and-Excitationレイヤで再重み付けされる。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの広範な評価を行った。
さらに、我々のモデルを自動運転車にデプロイし、そのリアルタイム能力と安定した実行を示す。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Gesture Recognition with Keypoint and Radar Stream Fusion for Automated
Vehicles [13.652770928249447]
我々は、自動運転車が日常の交通における人間のジェスチャーを理解し、反応できるようにするために、共同カメラとレーダーのアプローチを提案する。
両モードに対する融合ニューラルネットワークを提案し,各モードに対する補助的損失を含む。
また, 天候条件の悪さが原因で, センサの1つが機能に欠ける場合にも有望な性能を示す。
論文 参考訳(メタデータ) (2023-02-20T14:18:11Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - OpenPifPaf: Composite Fields for Semantic Keypoint Detection and
Spatio-Temporal Association [90.39247595214998]
イメージベースの知覚タスクは、例えば、検出、関連付け、セマンティックキーポイントとして定式化することができる。
人間の体は 推定と追跡をする
一つの段階における意味的および時間的キーポイント関連を共同で検出する一般的な枠組みを提案する。
また,本手法は車や動物などのキーポイントのクラスに一般化し,総合的な知覚の枠組みを提供することを示す。
論文 参考訳(メタデータ) (2021-03-03T14:44:14Z) - Attention-Driven Body Pose Encoding for Human Activity Recognition [0.0]
本稿では,人間の行動認識のための新しいアテンションベースボディポーズコーディングを提案する。
濃縮されたデータは、3次元体の関節位置データを補完し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2020-09-29T22:17:17Z) - Gesture Recognition from Skeleton Data for Intuitive Human-Machine
Interaction [0.6875312133832077]
本稿では,手工芸品の集合に基づく動的ジェスチャーのセグメント化と分類のためのアプローチを提案する。
ジェスチャー認識方法はスライディングウィンドウを適用し、空間次元と時間次元の両方から情報を抽出する。
最終的に、認識されたジェスチャーは、協調ロボットと対話するために使用される。
論文 参考訳(メタデータ) (2020-08-26T11:28:50Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。