論文の概要: MsFIN: Multi-scale Feature Interaction Network for Traffic Accident Anticipation
- arxiv url: http://arxiv.org/abs/2509.19227v1
- Date: Tue, 23 Sep 2025 16:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.959726
- Title: MsFIN: Multi-scale Feature Interaction Network for Traffic Accident Anticipation
- Title(参考訳): MsFIN:交通事故予測のためのマルチスケール機能インタラクションネットワーク
- Authors: Tongshuai Wu, Chao Lu, Ze Song, Yunlong Lin, Sizhe Fan, Xuemei Chen,
- Abstract要約: ダッシュカムビデオからの早期事故予測のために,Ms-scale Feature Interaction Network (MsFIN)を提案する。
MsFINには、マルチスケール機能集約、時間的特徴処理、マルチスケール機能ポストフュージョンの3つのレイヤがある。
DADとDADデータセットの実験では、MsFINは単一スケールの特徴抽出による最先端モデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 11.143415608240057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread deployment of dashcams and advancements in computer vision, developing accident prediction models from the dashcam perspective has become critical for proactive safety interventions. However, two key challenges persist: modeling feature-level interactions among traffic participants (often occluded in dashcam views) and capturing complex, asynchronous multi-temporal behavioral cues preceding accidents. To deal with these two challenges, a Multi-scale Feature Interaction Network (MsFIN) is proposed for early-stage accident anticipation from dashcam videos. MsFIN has three layers for multi-scale feature aggregation, temporal feature processing and multi-scale feature post fusion, respectively. For multi-scale feature aggregation, a Multi-scale Module is designed to extract scene representations at short-term, mid-term and long-term temporal scales. Meanwhile, the Transformer architecture is leveraged to facilitate comprehensive feature interactions. Temporal feature processing captures the sequential evolution of scene and object features under causal constraints. In the multi-scale feature post fusion stage, the network fuses scene and object features across multiple temporal scales to generate a comprehensive risk representation. Experiments on DAD and DADA datasets show that MsFIN significantly outperforms state-of-the-art models with single-scale feature extraction in both prediction correctness and earliness. Ablation studies validate the effectiveness of each module in MsFIN, highlighting how the network achieves superior performance through multi-scale feature fusion and contextual interaction modeling.
- Abstract(参考訳): ダシュカムの普及とコンピュータビジョンの進歩により、ダシュカムの観点からの事故予測モデルの開発は、積極的な安全介入に欠かせないものとなっている。
しかしながら、2つの重要な課題は、トラフィック参加者間の機能レベルのインタラクションをモデリングすること(しばしばダッシュカムビューに隠蔽される)と、事故前の複雑で非同期なマルチ時間的振る舞いのキューをキャプチャすることである。
これら2つの課題に対処するため、ダッシュカムビデオからの早期の事故予測のためにMsFIN(Multi-scale Feature Interaction Network)を提案する。
MsFINには3つのレイヤがあり、それぞれマルチスケールの特徴集約、時間的特徴処理、マルチスケール特徴ポストフュージョンがある。
マルチスケール機能アグリゲーションのために、マルチスケールモジュールは、短期、中期、長期の時間スケールでシーン表現を抽出するように設計されている。
一方、Transformerアーキテクチャは、包括的な機能インタラクションを促進するために利用される。
時間的特徴処理は、因果的制約の下でシーンとオブジェクトの特徴の逐次的進化をキャプチャする。
マルチスケールのフィーチャーポストフュージョンステージでは、ネットワークはシーンとオブジェクトの特徴を複数の時間スケールで融合し、包括的なリスク表現を生成する。
DADデータセットとDADデータセットの実験では、MsFINは予測精度と耳線の両方で単一スケールの特徴抽出による最先端モデルよりも大幅に優れていた。
アブレーション研究は,MsFINにおける各モジュールの有効性を検証し,マルチスケール機能融合とコンテキスト相互作用モデリングによりネットワークが優れた性能を達成する方法を明らかにする。
関連論文リスト
- Attention-Driven Multimodal Alignment for Long-term Action Quality Assessment [5.262258418692889]
長時間の行動品質評価(AQA)は、最大数分間の動画における人間の活動の質を評価することに焦点を当てている。
LMAC-Net(Long-term Multimodal Attention Consistency Network)では,マルチモーダル特徴を明示的に整列する多モーダルアテンション一貫性機構を導入している。
RGデータセットとFis-Vデータセットで実施された実験は、LMAC-Netが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-29T15:58:39Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Multi-scale Temporal Fusion Transformer for Incomplete Vehicle Trajectory Prediction [23.72022120344089]
運動予測は自律運転システムにおいて重要な役割を果たす。
不完全な車両軌道予測のための新しいエンドツーエンドフレームワークを提案する。
道路交通シナリオと都市交通シナリオから得られた4つのデータセットについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2024-09-02T02:36:18Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - AccidentBlip: Agent of Accident Warning based on MA-former [24.81148840857782]
AccidentBlipは視覚のみのフレームワークで、ビデオの各フレームを処理するために自設計のMotion Accident Transformer(MA-former)を使用している。
AccidentBlipは、DeepAccidentデータセット上の事故検出と予測タスクの両方のパフォーマンスを達成する。
また、V2VおよびV2Xシナリオにおける現在のSOTAメソッドよりも優れており、複雑な現実世界環境を理解するのに優れた能力を示している。
論文 参考訳(メタデータ) (2024-04-18T12:54:25Z) - Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions [8.256630421682951]
RAID-Netは、モデル予測制御(MPC)予測地平線に沿って関連する相互作用を予測する、注目に基づく新しいリカレントニューラルネットワークである。
本手法は, 移動計画問題の解法において, 12倍のスピードアップを示した。
論文 参考訳(メタデータ) (2024-02-02T03:19:54Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。