論文の概要: Density-Guided Label Smoothing for Temporal Localization of Driving
Actions
- arxiv url: http://arxiv.org/abs/2403.06616v1
- Date: Mon, 11 Mar 2024 11:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:24:07.595129
- Title: Density-Guided Label Smoothing for Temporal Localization of Driving
Actions
- Title(参考訳): 駆動行動の時間的局在化のための密度誘導ラベル平滑化
- Authors: Tunc Alkanat, Erkut Akdag, Egor Bondarev, Peter H. N. De With
- Abstract要約: 我々は,映像行動認識ネットワークを効率的に活用することで,全体的な性能向上に重点を置いている。
映像セグメントからの情報と複数のカメラビューをシーンレベルの予測に効率的に融合する処理後ステップを設計する。
提案手法は,2022年のNVIDIA AI City Challengeにおける自然主義駆動行動認識トラックのA2テストセットにおいて,F1スコア0.271の競合性能を示す。
- 参考スコア(独自算出の注目度): 8.841708075914353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal localization of driving actions plays a crucial role in advanced
driver-assistance systems and naturalistic driving studies. However, this is a
challenging task due to strict requirements for robustness, reliability and
accurate localization. In this work, we focus on improving the overall
performance by efficiently utilizing video action recognition networks and
adapting these to the problem of action localization. To this end, we first
develop a density-guided label smoothing technique based on label probability
distributions to facilitate better learning from boundary video-segments that
typically include multiple labels. Second, we design a post-processing step to
efficiently fuse information from video-segments and multiple camera views into
scene-level predictions, which facilitates elimination of false positives. Our
methodology yields a competitive performance on the A2 test set of the
naturalistic driving action recognition track of the 2022 NVIDIA AI City
Challenge with an F1 score of 0.271.
- Abstract(参考訳): 運転行動の時間的局所化は、先進的な運転支援システムや自然主義運転研究において重要な役割を果たす。
しかし、堅牢性、信頼性、正確なローカライゼーションの厳格な要件のため、これは難しい課題である。
本研究では,映像行動認識ネットワークを効率よく活用し,これらをアクションローカライゼーションの問題に適応させることにより,全体的な性能向上に注力する。
そこで我々はまず,ラベル確率分布に基づく密度誘導型ラベル平滑化手法を開発し,複数のラベルを含む境界ビデオセグメントの学習を容易にする。
第2に,ビデオセグメントと複数のカメラビューからの情報をシーンレベルの予測に効率的に融合し,偽陽性の除去を容易にするポストプロセッシングステップを設計する。
提案手法は,2022年のNVIDIA AI City Challengeにおける自然主義駆動行動認識トラックのA2テストセットにおいて,F1スコア0.271の競合性能を示す。
関連論文リスト
- DSDFormer: An Innovative Transformer-Mamba Framework for Robust High-Precision Driver Distraction Identification [23.05821759499963]
ドライバーの気晴らしは依然として交通事故の主要な原因であり、世界中の道路安全にとって重大な脅威となっている。
本稿では,Transformer と Mamba アーキテクチャの長所を統合するフレームワークである DSDFormer を提案する。
また、ビデオの時間相関を利用してノイズラベルを洗練させる教師なしアプローチであるTRCL(Temporal Reasoning Confident Learning)も導入した。
論文 参考訳(メタデータ) (2024-09-09T13:16:15Z) - FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - DeepLocalization: Using change point detection for Temporal Action Localization [2.4502578110136946]
DeepLocalizationは、ドライバーの行動を監視するために明示的に調整されたアクションのリアルタイムローカライゼーションのために考案された革新的なフレームワークである。
我々の戦略は、ビデオ大言語モデル(Video Large Language Model, Video-LLM)と並行して、グラフベースの変更点検出を時間内のピンポイント行動に活用し、アクティビティを正確に分類する、という2つのアプローチを採用している。
論文 参考訳(メタデータ) (2024-04-18T15:25:59Z) - Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition [8.841708075914353]
運転行動の時間的局所化は、先進的な運転支援システムと自然主義運転研究にとって重要である。
本研究では,映像行動認識と2次元人文推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
このモデルは、2023年のNVIDIA AI City ChallengeというA2テストセットで、自然な運転行動認識のためにうまく機能する。
論文 参考訳(メタデータ) (2024-03-11T10:26:38Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - E^2TAD: An Energy-Efficient Tracking-based Action Detector [78.90585878925545]
本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。
UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
論文 参考訳(メタデータ) (2022-04-09T07:52:11Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。