論文の概要: Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition
- arxiv url: http://arxiv.org/abs/2403.06577v1
- Date: Mon, 11 Mar 2024 10:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:34:37.359855
- Title: Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition
- Title(参考訳): ドライバ動作認識のためのトランスフォーマーによる2次元位置と時空間埋め込みの融合
- Authors: Erkut Akdag, Zeqi Zhu, Egor Bondarev, Peter H. N. De With
- Abstract要約: 運転行動の時間的局所化は、先進的な運転支援システムと自然主義運転研究にとって重要である。
本研究では,映像行動認識と2次元人文推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
このモデルは、2023年のNVIDIA AI City ChallengeというA2テストセットで、自然な運転行動認識のためにうまく機能する。
- 参考スコア(独自算出の注目度): 8.841708075914353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification and localization of driving actions over time is important for
advanced driver-assistance systems and naturalistic driving studies. Temporal
localization is challenging because it requires robustness, reliability, and
accuracy. In this study, we aim to improve the temporal localization and
classification accuracy performance by adapting video action recognition and 2D
human-pose estimation networks to one model. Therefore, we design a
transformer-based fusion architecture to effectively combine 2D-pose features
and spatio-temporal features. The model uses 2D-pose features as the positional
embedding of the transformer architecture and spatio-temporal features as the
main input to the encoder of the transformer. The proposed solution is generic
and independent of the camera numbers and positions, giving frame-based class
probabilities as output. Finally, the post-processing step combines information
from different camera views to obtain final predictions and eliminate false
positives. The model performs well on the A2 test set of the 2023 NVIDIA AI
City Challenge for naturalistic driving action recognition, achieving the
overlap score of the organizer-defined distracted driver behaviour metric of
0.5079.
- Abstract(参考訳): 運転支援システムや自然主義的運転研究において,運転行動の時間的分類と局所化が重要である。
時間的ローカライゼーションは、堅牢性、信頼性、正確性を必要とするため、難しい。
本研究では,映像動作認識と2次元人格推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
そこで我々は,2次元配置特徴と時空間特徴を効果的に組み合わせたトランスフォーマーベース融合アーキテクチャを設計する。
このモデルは2d-pose特徴をトランスフォーマアーキテクチャの位置埋め込みとして、時空間特徴をトランスフォーマのエンコーダへの主入力として使用する。
提案手法はカメラ数と位置に依存しない汎用的であり、フレームベースのクラス確率を出力とする。
最後に、後処理ステップは、異なるカメラビューからの情報を結合して最終予測を取得し、偽陽性を解消する。
このモデルは、2023年のNVIDIA AI City Challenge for naturalistic driving action recognitionのA2テストセットでうまく機能し、オーガナイザが定義した注意深い運転行動メトリクスのオーバーラップスコア0.5079を達成する。
関連論文リスト
- GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction [6.327758022051579]
GTransPDMは多モード特徴を利用した歩行者横断意図予測のために開発された。
PIEデータセットでは92%の精度で、JAADデータセットでは87%の精度で処理速度は0.05msである。
論文 参考訳(メタデータ) (2024-09-30T12:02:17Z) - Event-Aided Time-to-Collision Estimation for Autonomous Driving [28.13397992839372]
ニューロモルフィックなイベントベースカメラを用いて衝突時刻を推定する新しい手法を提案する。
提案アルゴリズムは, 事象データに適合する幾何モデルに対して, 効率的かつ高精度な2段階のアプローチで構成する。
合成データと実データの両方の実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-10T02:37:36Z) - DuEqNet: Dual-Equivariance Network in Outdoor 3D Object Detection for
Autonomous Driving [4.489333751818157]
まず3次元物体検出ネットワークに等分散の概念を導入するDuEqNetを提案する。
我々のモデルの双対同変は、局所的および大域的両方の同変的特徴を抽出することができる。
本モデルでは, 配向精度が向上し, 予測効率が向上する。
論文 参考訳(メタデータ) (2023-02-27T08:30:02Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - Unsupervised Foggy Scene Understanding via Self Spatial-Temporal Label
Diffusion [51.11295961195151]
運転シーンの霧画像列の特徴を利用して、自信ある擬似ラベルを密度化する。
局所的な空間的類似性と逐次画像データの隣接時間対応の2つの発見に基づいて,新たなターゲット・ドメイン駆動擬似ラベル拡散方式を提案する。
本手法は,2つの天然霧のデータセット上で51.92%,53.84%の平均交叉結合(mIoU)を達成するのに有効である。
論文 参考訳(メタデータ) (2022-06-10T05:16:50Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。