論文の概要: Spatial-Temporal Perception with Causal Inference for Naturalistic Driving Action Recognition
- arxiv url: http://arxiv.org/abs/2503.04078v1
- Date: Thu, 06 Mar 2025 04:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:42.005380
- Title: Spatial-Temporal Perception with Causal Inference for Naturalistic Driving Action Recognition
- Title(参考訳): 自然な運転行動認識のための因果推論を用いた空間的時間知覚
- Authors: Qing Chang, Wei Dai, Zhihao Shuai, Limin Yu, Yutao Yue,
- Abstract要約: 自動車キャビン監視システムには, 自然な運転行動認識が不可欠である。
これまでのアプローチでは、微妙な振る舞いの違いを観察する能力が限られていたため、実践的な実装に苦労してきた。
本稿では,時間的情報と空間的関係を両立する空間的知覚アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 6.115044825582411
- License:
- Abstract: Naturalistic driving action recognition is essential for vehicle cabin monitoring systems. However, the complexity of real-world backgrounds presents significant challenges for this task, and previous approaches have struggled with practical implementation due to their limited ability to observe subtle behavioral differences and effectively learn inter-frame features from video. In this paper, we propose a novel Spatial-Temporal Perception (STP) architecture that emphasizes both temporal information and spatial relationships between key objects, incorporating a causal decoder to perform behavior recognition and temporal action localization. Without requiring multimodal input, STP directly extracts temporal and spatial distance features from RGB video clips. Subsequently, these dual features are jointly encoded by maximizing the expected likelihood across all possible permutations of the factorization order. By integrating temporal and spatial features at different scales, STP can perceive subtle behavioral changes in challenging scenarios. Additionally, we introduce a causal-aware module to explore relationships between video frame features, significantly enhancing detection efficiency and performance. We validate the effectiveness of our approach using two publicly available driver distraction detection benchmarks. The results demonstrate that our framework achieves state-of-the-art performance.
- Abstract(参考訳): 自動車キャビン監視システムには, 自然な運転行動認識が不可欠である。
しかし、実世界の背景の複雑さは、この課題に重大な課題をもたらしており、従来の手法では、微妙な振る舞いの違いを観察し、ビデオからフレーム間の特徴を効果的に学習する能力が限られていたため、実践に苦戦している。
本稿では,鍵オブジェクト間の時間的情報と空間的関係を強調し,行動認識と時間的行動ローカライゼーションを行うために因果デコーダを組み込んだ新しい時空間知覚(STP)アーキテクチャを提案する。
マルチモーダルな入力を必要としないSTPは、RGBビデオクリップから直接時間的および空間的距離の特徴を抽出する。
その後、これらの双対特徴は、因子化順序の可能なすべての置換にまたがる期待される確率を最大化することにより、共同で符号化される。
時間的特徴と空間的特徴を異なるスケールで統合することにより、STPは挑戦的なシナリオにおいて微妙な行動変化を知覚することができる。
さらに、ビデオフレームの特徴間の関係を探索する因果認識モジュールを導入し、検出効率と性能を大幅に向上させる。
提案手法の有効性を,2つの公用ドライバ・トラクション検出ベンチマークを用いて検証した。
その結果,我々のフレームワークは最先端のパフォーマンスを実現していることがわかった。
関連論文リスト
- Event-Based Tracking Any Point with Motion-Augmented Temporal Consistency [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
出来事の空間的空間性や動きの感度によって引き起こされる課題に対処する。
競合モデルパラメータによる処理を150%高速化する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Fine-grained Dynamic Network for Generic Event Boundary Detection [9.17191007695011]
そこで我々は,DyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。
マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは、異なるビデオスニペットへのアロケーションを自動的に学習する。
Kinetics-GEBD と TAPOS のデータセットに挑戦する実験では、動的戦略の採用が GEBD タスクに大きく貢献することを示した。
論文 参考訳(メタデータ) (2024-07-05T06:02:46Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Confidence-guided Adaptive Gate and Dual Differential Enhancement for
Video Salient Object Detection [47.68968739917077]
ビデオサルエント物体検出(VSOD)は、ビデオシーケンスに隠された空間的手がかりと時間的手がかりの両方を活用することにより、最も魅力的な物体の探索と分割を目的としている。
信頼性誘導適応ゲート(CAG)モジュールとデュアルディファレンシャルエンハンスメント(DDE)モジュールを含む空間的および時間的キューから利用可能な情報を適応的にキャプチャする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-14T08:49:37Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。