論文の概要: DeepLocalization: Using change point detection for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2404.12258v1
- Date: Thu, 18 Apr 2024 15:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:12:06.855496
- Title: DeepLocalization: Using change point detection for Temporal Action Localization
- Title(参考訳): ディープローカライゼーション: 時間的アクションローカライゼーションにおける変化点検出の利用
- Authors: Mohammed Shaiqur Rahman, Ibne Farabi Shihab, Lynna Chu, Anuj Sharma,
- Abstract要約: DeepLocalizationは、ドライバーの行動を監視するために明示的に調整されたアクションのリアルタイムローカライゼーションのために考案された革新的なフレームワークである。
我々の戦略は、ビデオ大言語モデル(Video Large Language Model, Video-LLM)と並行して、グラフベースの変更点検出を時間内のピンポイント行動に活用し、アクティビティを正確に分類する、という2つのアプローチを採用している。
- 参考スコア(独自算出の注目度): 2.4502578110136946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we introduce DeepLocalization, an innovative framework devised for the real-time localization of actions tailored explicitly for monitoring driver behavior. Utilizing the power of advanced deep learning methodologies, our objective is to tackle the critical issue of distracted driving-a significant factor contributing to road accidents. Our strategy employs a dual approach: leveraging Graph-Based Change-Point Detection for pinpointing actions in time alongside a Video Large Language Model (Video-LLM) for precisely categorizing activities. Through careful prompt engineering, we customize the Video-LLM to adeptly handle driving activities' nuances, ensuring its classification efficacy even with sparse data. Engineered to be lightweight, our framework is optimized for consumer-grade GPUs, making it vastly applicable in practical scenarios. We subjected our method to rigorous testing on the SynDD2 dataset, a complex benchmark for distracted driving behaviors, where it demonstrated commendable performance-achieving 57.5% accuracy in event classification and 51% in event detection. These outcomes underscore the substantial promise of DeepLocalization in accurately identifying diverse driver behaviors and their temporal occurrences, all within the bounds of limited computational resources.
- Abstract(参考訳): 本研究では,ドライバーの行動監視に適した行動のリアルタイムローカライズを目的とした,革新的なフレームワークであるDeepLocalizationを紹介する。
先進的な深層学習手法の力を生かして,道路事故に寄与する重要な要因である注意散逸運転の重大な問題に取り組むことを目的とする。
我々の戦略は、ビデオ大言語モデル(Video Large Language Model, Video-LLM)と並行して、グラフベースの変更点検出を時間内のピンポイント行動に活用し、アクティビティを正確に分類する、という2つのアプローチを採用している。
注意深いプロンプトエンジニアリングを通じて、運転行動のニュアンスを十分に扱えるよう、ビデオLLMをカスタマイズし、スパースデータであってもその分類の有効性を確保する。
軽量に設計された当社のフレームワークは、コンシューマグレードのGPUに最適化されており、実用的なシナリオに非常に適用できます。
我々は,運転行動の複雑なベンチマークであるSynDD2データセットの厳密なテストを行い,イベント分類の精度57.5%,イベント検出の精度51%を示した。
これらの結果は、様々なドライバの挙動と時間的発生を正確に識別する上で、DeepLocalizationの実質的な約束を、すべて限られた計算リソースの範囲内で示している。
関連論文リスト
- Density-Guided Label Smoothing for Temporal Localization of Driving
Actions [8.841708075914353]
我々は,映像行動認識ネットワークを効率的に活用することで,全体的な性能向上に重点を置いている。
映像セグメントからの情報と複数のカメラビューをシーンレベルの予測に効率的に融合する処理後ステップを設計する。
提案手法は,2022年のNVIDIA AI City Challengeにおける自然主義駆動行動認識トラックのA2テストセットにおいて,F1スコア0.271の競合性能を示す。
論文 参考訳(メタデータ) (2024-03-11T11:06:41Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - OpenNet: Incremental Learning for Autonomous Driving Object Detection
with Balanced Loss [3.761247766448379]
提案手法は既存手法よりも優れた性能が得られる。
CODAデータセットを用いた実験結果から,提案手法は既存手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-11-25T06:02:50Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Real-Time Driver Monitoring Systems through Modality and View Analysis [28.18784311981388]
ドライバーの気晴らしが道路事故の主要な原因であることが知られている。
State-of-the-artメソッドはレイテンシを無視しながら精度を優先する。
本稿では,ビデオフレーム間の時間的関係を無視した時間効率な検出モデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T21:22:41Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - E^2TAD: An Energy-Efficient Tracking-based Action Detector [78.90585878925545]
本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。
UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
論文 参考訳(メタデータ) (2022-04-09T07:52:11Z) - Improving Variational Autoencoder based Out-of-Distribution Detection
for Embedded Real-time Applications [2.9327503320877457]
アウト・オブ・ディストリビューション(OD)検出は、リアルタイムにアウト・オブ・ディストリビューションを検出するという課題に対処する新しいアプローチである。
本稿では,自律走行エージェントの周囲の有害な動きを頑健に検出する方法について述べる。
提案手法は,OoD因子の検出能力を一意に改善し,最先端手法よりも42%向上した。
また,本モデルでは,実験した実世界およびシミュレーション駆動データに対して,最先端技術よりも97%の精度でほぼ完璧に一般化した。
論文 参考訳(メタデータ) (2021-07-25T07:52:53Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。