論文の概要: Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition
- arxiv url: http://arxiv.org/abs/2403.06577v1
- Date: Mon, 11 Mar 2024 10:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:34:37.359855
- Title: Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition
- Title(参考訳): ドライバ動作認識のためのトランスフォーマーによる2次元位置と時空間埋め込みの融合
- Authors: Erkut Akdag, Zeqi Zhu, Egor Bondarev, Peter H. N. De With
- Abstract要約: 運転行動の時間的局所化は、先進的な運転支援システムと自然主義運転研究にとって重要である。
本研究では,映像行動認識と2次元人文推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
このモデルは、2023年のNVIDIA AI City ChallengeというA2テストセットで、自然な運転行動認識のためにうまく機能する。
- 参考スコア(独自算出の注目度): 8.841708075914353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification and localization of driving actions over time is important for
advanced driver-assistance systems and naturalistic driving studies. Temporal
localization is challenging because it requires robustness, reliability, and
accuracy. In this study, we aim to improve the temporal localization and
classification accuracy performance by adapting video action recognition and 2D
human-pose estimation networks to one model. Therefore, we design a
transformer-based fusion architecture to effectively combine 2D-pose features
and spatio-temporal features. The model uses 2D-pose features as the positional
embedding of the transformer architecture and spatio-temporal features as the
main input to the encoder of the transformer. The proposed solution is generic
and independent of the camera numbers and positions, giving frame-based class
probabilities as output. Finally, the post-processing step combines information
from different camera views to obtain final predictions and eliminate false
positives. The model performs well on the A2 test set of the 2023 NVIDIA AI
City Challenge for naturalistic driving action recognition, achieving the
overlap score of the organizer-defined distracted driver behaviour metric of
0.5079.
- Abstract(参考訳): 運転支援システムや自然主義的運転研究において,運転行動の時間的分類と局所化が重要である。
時間的ローカライゼーションは、堅牢性、信頼性、正確性を必要とするため、難しい。
本研究では,映像動作認識と2次元人格推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
そこで我々は,2次元配置特徴と時空間特徴を効果的に組み合わせたトランスフォーマーベース融合アーキテクチャを設計する。
このモデルは2d-pose特徴をトランスフォーマアーキテクチャの位置埋め込みとして、時空間特徴をトランスフォーマのエンコーダへの主入力として使用する。
提案手法はカメラ数と位置に依存しない汎用的であり、フレームベースのクラス確率を出力とする。
最後に、後処理ステップは、異なるカメラビューからの情報を結合して最終予測を取得し、偽陽性を解消する。
このモデルは、2023年のNVIDIA AI City Challenge for naturalistic driving action recognitionのA2テストセットでうまく機能し、オーガナイザが定義した注意深い運転行動メトリクスのオーバーラップスコア0.5079を達成する。
関連論文リスト
- CorrDiff: Adaptive Delay-aware Detector with Temporal Cue Inputs for Real-time Object Detection [11.714072240331518]
CorrDiffは、リアルタイム検出システムの遅延問題に対処するために設計された。
複数の将来のフレームに対するオブジェクトの位置を予測するために、実行時推定の時間的キューを利用することができる。
あらゆる種類のデバイスにおいて、厳格なリアルタイム処理要件を満たす。
論文 参考訳(メタデータ) (2025-01-09T10:34:25Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - Event-Based Tracking Any Point with Motion-Augmented Temporal Consistency [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
出来事の空間的空間性や動きの感度によって引き起こされる課題に対処する。
競合モデルパラメータによる処理を150%高速化する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction [6.327758022051579]
GTransPDMは多モード特徴を利用した歩行者横断意図予測のために開発された。
PIEデータセットでは92%の精度で、JAADデータセットでは87%の精度で処理速度は0.05msである。
論文 参考訳(メタデータ) (2024-09-30T12:02:17Z) - DuEqNet: Dual-Equivariance Network in Outdoor 3D Object Detection for
Autonomous Driving [4.489333751818157]
まず3次元物体検出ネットワークに等分散の概念を導入するDuEqNetを提案する。
我々のモデルの双対同変は、局所的および大域的両方の同変的特徴を抽出することができる。
本モデルでは, 配向精度が向上し, 予測効率が向上する。
論文 参考訳(メタデータ) (2023-02-27T08:30:02Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。