Fugu-MT 論文翻訳(概要): Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos

論文の概要: Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos

arxiv url: http://arxiv.org/abs/2401.03522v2
Date: Mon, 15 Apr 2024 07:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 22:48:02.625014
Title: Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos
Title（参考訳）: 運転映像の時間周波数モデリングによるテキスト駆動交通異常検出
Authors: Rongqin Liang, Yuanman Li, Jiantao Zhou, Xia Li,
Abstract要約: 本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTHFを紹介し,交通異常検出の新しい視点を提供する。従来の手法とは異なり、我々の手法の教師付き信号は1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。提案したTTHFは,DoTAデータセット上で,+5.4%のAUCで,最先端の競合よりも優れたパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 22.16190711818432
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traffic anomaly detection (TAD) in driving videos is critical for ensuring the safety of autonomous driving and advanced driver assistance systems. Previous single-stage TAD methods primarily rely on frame prediction, making them vulnerable to interference from dynamic backgrounds induced by the rapid movement of the dashboard camera. While two-stage TAD methods appear to be a natural solution to mitigate such interference by pre-extracting background-independent features (such as bounding boxes and optical flow) using perceptual algorithms, they are susceptible to the performance of first-stage perceptual algorithms and may result in error propagation. In this paper, we introduce TTHF, a novel single-stage method aligning video clips with text prompts, offering a new perspective on traffic anomaly detection. Unlike previous approaches, the supervised signal of our method is derived from languages rather than orthogonal one-hot vectors, providing a more comprehensive representation. Further, concerning visual representation, we propose to model the high frequency of driving videos in the temporal domain. This modeling captures the dynamic changes of driving scenes, enhances the perception of driving behavior, and significantly improves the detection of traffic anomalies. In addition, to better perceive various types of traffic anomalies, we carefully design an attentive anomaly focusing mechanism that visually and linguistically guides the model to adaptively focus on the visual context of interest, thereby facilitating the detection of traffic anomalies. It is shown that our proposed TTHF achieves promising performance, outperforming state-of-the-art competitors by +5.4% AUC on the DoTA dataset and achieving high generalization on the DADA dataset.
Abstract（参考訳）: 運転ビデオにおける交通異常検出(TAD)は、自動運転と高度な運転支援システムの安全性を確保するために重要である。従来の単一ステージTAD手法は主にフレーム予測に依存しており、ダッシュボードカメラの高速移動によって引き起こされる動的背景からの干渉に弱い。 2段階のTAD法は、背景非依存の特徴(バウンディングボックスや光フローなど)を知覚アルゴリズムで事前に抽出することで、そのような干渉を軽減する自然な解であるように見えるが、第一段階の知覚アルゴリズムの性能に敏感であり、エラーの伝播をもたらす可能性がある。本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTTHFを紹介し,交通異常検出の新しい視点を提供する。従来の手法とは異なり、我々の手法の教師付き信号は直交する1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。さらに、視覚表現に関して、時間領域における駆動映像の高頻度をモデル化することを提案する。このモデリングは、運転シーンの動的変化を捉え、運転行動の知覚を高め、交通異常の検出を大幅に改善する。さらに,様々な交通異常をよりよく知覚するために,視覚的かつ言語的に関心の視覚的文脈に適応的に焦点を合わせ,交通異常の検出を容易にするような注意深い異常集中機構を慎重に設計する。提案したTTHFは,DoTAデータセット上では+5.4%,DADデータセットでは高い一般化を達成し,最先端の競合よりも高い性能を実現している。

関連論文リスト

Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文参考訳（メタデータ） (2025-08-03T12:06:47Z)
A Driving Regime-Embedded Deep Learning Framework for Modeling Intra-Driver Heterogeneity in Multi-Scale Car-Following Dynamics [5.579243411257874]
本稿では、離散駆動方式を車体運動予測に組み込む新しいデータ駆動型自動車追従フレームワークを提案する。提案したハイブリッドディープラーニングアーキテクチャは、離散運転系統分類のためのGated Recurrent Unitsと、連続的キネマティック予測のためのLong Short-Term Memory Networkを組み合わせたものである。このフレームワークはアクセラレーションの予測誤差を著しく減らし(最大MSE改善は58.47%に達した)、速度と距離を計測し、重要な交通現象を再現する。
論文参考訳（メタデータ） (2025-06-06T09:19:33Z)
SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。 SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文参考訳（メタデータ） (2025-04-14T15:30:03Z)
An object detection approach for lane change and overtake detection from motion profiles [3.545178658731506]
本稿では,移動プロファイルに適用した新しい物体検出手法を用いて,オーバーテイクおよびレーン変更動作の同定を行う。モデルをトレーニングし、テストするために、ヘテロジニアスなダシュカムビデオから得られたモーションプロファイル画像の内部データセットを作成しました。標準のオブジェクト検出アプローチに加えて、CoordConvolutionレイヤを含めることで、モデルの性能がさらに向上することを示す。
論文参考訳（メタデータ） (2025-02-06T17:36:35Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
FollowGen: A Scaled Noise Conditional Diffusion Model for Car-Following Trajectory Prediction [9.2729178775419]
本研究では,自動車追従軌道予測のためのスケールドノイズ条件拡散モデルを提案する。車両間の詳細な相互作用と自動車追従ダイナミクスを生成フレームワークに統合し、予測された軌跡の精度と妥当性を向上させる。種々の実世界の運転シナリオに関する実験結果は,提案手法の最先端性能と堅牢性を示すものである。
論文参考訳（メタデータ） (2024-11-23T23:13:45Z)
Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning [13.613407983544427]
車両内のカメラ位置の変化に耐えられるような頑健なモデルを導入する。我々のドライバ行動監視ネットワーク(DBMNet)は軽量なバックボーンに依存し、アンタングルメントモジュールを統合する。 100-Driverデータセットの夜間および夜間のサブセットで行った実験は、我々のアプローチの有効性を検証した。
論文参考訳（メタデータ） (2024-11-20T10:27:12Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文参考訳（メタデータ） (2023-10-09T20:32:49Z)
Unsupervised Domain Adaptation for Self-Driving from Past Traversal Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。実世界のデータセットの実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-09-21T15:00:31Z)
A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos [22.553356096143734]
本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。
論文参考訳（メタデータ） (2023-07-27T01:45:13Z)
FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文参考訳（メタデータ） (2022-12-05T08:25:09Z)
Real-Time Driver Monitoring Systems through Modality and View Analysis [28.18784311981388]
ドライバーの気晴らしが道路事故の主要な原因であることが知られている。 State-of-the-artメソッドはレイテンシを無視しながら精度を優先する。本稿では,ビデオフレーム間の時間的関係を無視した時間効率な検出モデルを提案する。
論文参考訳（メタデータ） (2022-10-17T21:22:41Z)
Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文参考訳（メタデータ） (2022-03-14T17:55:41Z)
Robust Unsupervised Video Anomaly Detection by Multi-Path Frame Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文参考訳（メタデータ） (2020-11-05T11:34:12Z)
Anomalous Motion Detection on Highway Using Deep Learning [14.617786106427834]
本稿では,新しい異常検出データセットであるハイウェイ交通異常(HTA)データセットを提案する。我々は、最先端のディープラーニング異常検出モデルを評価し、これらの手法に新しいバリエーションを提案する。
論文参考訳（メタデータ） (2020-06-15T05:40:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。