論文の概要: An Open-Source Two-Stage Computer Vision Pipeline for Fine-Grained Vehicle Classification using Vision Transformers
- arxiv url: http://arxiv.org/abs/2606.05149v1
- Date: Wed, 03 Jun 2026 17:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.945864
- Title: An Open-Source Two-Stage Computer Vision Pipeline for Fine-Grained Vehicle Classification using Vision Transformers
- Title(参考訳): ビジョン変換器を用いた細粒度車両分類のためのオープンソースの2段階コンピュータビジョンパイプライン
- Authors: Gandhimathi Padmanaban, Fred Feng,
- Abstract要約: 車両のボディタイプは、クラッシュを乗り越える際のサイクリストの重傷の重症度を決定づける重要な要因であるが、車両を分類するための自動ツールがオープンな文献には存在しない。
本稿では、未学習のRT-DETR検出器と微調整の視覚変換器を組み合わせたオープンソースの2段コンピュータビジョンパイプラインを提案する。
信頼に基づく棄権機構は、ソフトマックス出力が0.60未満になるとステージ2の予測を保ち、無音の誤分類ではなく未知のラベルを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vehicle body type is a significant determinant of cyclist injury severity in overtaking crashes, yet automated tools for classifying vehicles into injury-risk-relevant categories from naturalistic roadway video do not exist in the open literature. Standard object detection benchmarks provide only coarse vehicle labels (car, truck, bus, motorcycle), while existing fine-grained recognition systems are trained on controlled imagery and lack evaluation for deployment robustness across recording sites. This paper presents an open-source two-stage computer vision pipeline combining a pre-trained RT-DETR detector for coarse vehicle localization with a fine-tuned Vision Transformer (ViT-Base/16) for six-category body-type classification: passenger car, SUV, pickup truck, minivan, large van, and commercial truck. A confidence-based abstention mechanism withholds Stage 2 predictions when softmax output falls below 0.60, producing unknown labels rather than silent misclassifications. Evaluated on 3,805 annotated overtaking events from a bicycle-lane corridor in Ann Arbor, Michigan (in-distribution), the pipeline achieved 0.94 accuracy with per-class F1 scores from 0.91 (minivan) to 0.97 (SUV). On an independent out-of-distribution evaluation of 311 events from an open cycling dataset without retraining, accuracy was 0.89. Three of four well-represented categories maintained F1 at or above 0.90 under domain shift. The largest degradation was observed for minivan (F1 = 0.72), driven by abstention rate rising from 2.4% to 25.0% rather than active misclassification, consistent with the mechanism propagating genuine model uncertainty. The full pipeline, including inference scripts, training code, evaluation utilities, and model weights, is released as open-source software to support reproducibility and reuse across roadside video archives and cycling safety research.
- Abstract(参考訳): 自動車のボディタイプは、事故を乗り越える際のサイクリストの重傷の重症度を決定づける重要な要因であるが、自然主義的な道路ビデオから車両を傷害リスク関連カテゴリーに分類する自動化ツールは、オープンな文献には存在しない。
標準オブジェクト検出ベンチマークは、粗い車両ラベル(車、トラック、バス、オートバイ)のみを提供するが、既存の微粒化認識システムは、制御された画像に基づいて訓練されており、記録された場所間でのデプロイメントの堅牢性の評価が欠如している。
本稿では,未学習のRT-DETR検出器と微調整のビジョントランスフォーマ(ViT-Base/16)を組み合わせたオープンソースの2段階コンピュータビジョンパイプラインを提案する。
信頼に基づく棄権機構は、ソフトマックス出力が0.60未満になるとステージ2の予測を保ち、無音の誤分類ではなく未知のラベルを生成する。
ミシガン州アン・アーバー(英語版)の自転車車線回廊(英語版)の3,805点(流通中)で、F1クラス毎のスコアが0.91点(ミニバン)から0.97点(SUV)まで0.94点(精度は0.94点)に達した。
再トレーニングを行わないオープンサイクリングデータセットから311イベントを独立にアウト・オブ・ディストリビューション評価したところ,精度は0.89。
4つのよく表現されたカテゴリーのうち3つはドメインシフトの下でF1を0.90以上維持した。
最も大きな劣化がミニバン (F1 = 0.72) で観測され、活性的誤分類よりも吸収率が2.4%から25.0%に上昇した。
推論スクリプト、トレーニングコード、評価ユーティリティ、モデルウェイトを含む完全なパイプラインは、ロードサイドのビデオアーカイブとサイクリング安全研究の再現性と再利用をサポートするオープンソースソフトウェアとしてリリースされた。
関連論文リスト
- AI-Driven Predictive Maintenance with Real-Time Contextual Data Fusion for Connected Vehicles: A Multi-Dataset Evaluation [0.0]
本稿では,V2X強化予測維持のためのシミュレーション検証型概念実証フレームワークを提案する。
オンボードセンサーストリームと外部のコンテキスト信号を統合する。
エッジ推論では、レイテンシを3.5sから1.0s以下に削減すると見積もられている。
論文 参考訳(メタデータ) (2026-03-07T06:08:45Z) - Real-time Secondary Crash Likelihood Prediction Excluding Post Primary Crash Features [6.477496237661746]
本稿では,ポストクラッシュ機能に依存しないハイブリッドクラッシュ予測フレームワークを提案する。
動的時間後ウィンドウは、一次衝突地点とその上流セグメントからリアルタイムの交通流と環境特徴を抽出するように設計されている。
フロリダ・フリーウェイの実験では、ハイブリッド・フレームワークの提案は、誤警報率0.20の低い二次衝突の91%を正しく識別することを示した。
論文 参考訳(メタデータ) (2026-02-17T22:49:33Z) - Commercial Vehicle Braking Optimization: A Robust SIFT-Trajectory Approach [6.751326589596112]
不正確な制御領域ネットワーク(CAN)信号による「ゼロスピードブレーキ」問題に対処するために、視覚に基づく軌道解析ソリューションを提案する。
このアルゴリズムはNVIDIA Jetson AGX Xavierプラットフォームを使用して、ブラインドスポットカメラからシーケンシャルなビデオフレームを処理する。
現場での展開では、偽のブレーキイベントが89%減少し、緊急ブレーキの成功率は100%、故障率は5%以下である。
論文 参考訳(メタデータ) (2025-12-21T05:06:16Z) - Overtake Detection in Trucks Using CAN Bus Signals: A Comparative Study of Machine Learning Methods [51.28632782308621]
ボルボグループが提供する5台の車載トラックから収集した制御エリアネットワーク(CAN)バスデータを用いたオーバーテイク検出に焦点を当てた。
車両操作検出、ニューラルネットワーク(ANN)、ランダムフォレスト(RF)、サポートベクトルマシン(SVM)の3つの共通分類器の評価を行った。
当社のパートラック分析では、特にオーバーテイクにおいて、車両毎のトレーニングデータの量に依存する分類精度も明らかにしています。
論文 参考訳(メタデータ) (2025-07-01T09:20:41Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z) - Augmenting Ego-Vehicle for Traffic Near-Miss and Accident Classification
Dataset using Manipulating Conditional Style Translation [0.3441021278275805]
事故が起こる前の事故と近距離事故には差はない。
我々の貢献は、事故の定義を再定義し、DADA-2000データセットにおける事故の不整合を再注釈することである。
提案手法は、条件付きスタイル変換(CST)と分離可能な3次元畳み込みニューラルネットワーク(S3D)の2つの異なるコンポーネントを統合する。
論文 参考訳(メタデータ) (2023-01-06T22:04:47Z) - Fine-Grained Vehicle Classification in Urban Traffic Scenes using Deep
Learning [0.0]
きめ細かい車種分類は、粗い車種分類に比べて難しい課題である。
既存の車両製造・モデル認識システム(VMMR)は、同期および制御された交通条件に基づいて開発されている。
複雑・都市・異質・非同期の交通条件における堅牢なVMMRの必要性は、まだオープンな研究領域のままである。
論文 参考訳(メタデータ) (2021-11-17T21:19:03Z) - Driver Intention Anticipation Based on In-Cabin and Driving Scene
Monitoring [52.557003792696484]
本稿では,車内映像と交通シーン映像の両方に基づいて運転者の意図を検出する枠組みを提案する。
本フレームワークは,83.98%,F1スコア84.3%の精度で予測を行う。
論文 参考訳(メタデータ) (2020-06-20T11:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。