論文の概要: Ordinal Scale Traffic Congestion Classification with Multi-Modal Vision-Language and Motion Analysis
- arxiv url: http://arxiv.org/abs/2510.10342v1
- Date: Sat, 11 Oct 2025 20:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.899793
- Title: Ordinal Scale Traffic Congestion Classification with Multi-Modal Vision-Language and Motion Analysis
- Title(参考訳): マルチモーダル・ビジョン・ランゲージとモーション分析を用いた日常的交通渋滞分類
- Authors: Yu-Hsuan Lin,
- Abstract要約: 本稿では,オープンボキャブラリ視覚言語推論(CLIP),オブジェクト検出(YOLO-World),およびMOG2ベースのバックグラウンドサブトラクションによる動作解析を組み合わせたマルチモーダルフレームワークを提案する。
このシステムは1(自由流)から5(密集)までの順序スケールでの混雑レベルを予測し、意味的に整列し、時間的に一貫した分類を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate traffic congestion classification is essential for intelligent transportation systems and real-time urban traffic management. This paper presents a multimodal framework combining open-vocabulary visual-language reasoning (CLIP), object detection (YOLO-World), and motion analysis via MOG2-based background subtraction. The system predicts congestion levels on an ordinal scale from 1 (free flow) to 5 (severe congestion), enabling semantically aligned and temporally consistent classification. To enhance interpretability, we incorporate motion-based confidence weighting and generate annotated visual outputs. Experimental results show the model achieves 76.7 percent accuracy, an F1 score of 0.752, and a Quadratic Weighted Kappa (QWK) of 0.684, significantly outperforming unimodal baselines. These results demonstrate the framework's effectiveness in preserving ordinal structure and leveraging visual-language and motion modalities. Future enhancements include incorporating vehicle sizing and refined density metrics.
- Abstract(参考訳): 交通渋滞の正確な分類は、インテリジェント交通システムとリアルタイム都市交通管理に不可欠である。
本稿では,オープンボキャブラリ視覚言語推論(CLIP),オブジェクト検出(YOLO-World),およびMOG2ベースのバックグラウンドサブトラクションによる動作解析を組み合わせたマルチモーダルフレームワークを提案する。
このシステムは1(自由流)から5(密集)までの順序スケールでの混雑レベルを予測し、意味的に整列し、時間的に一貫した分類を可能にする。
解釈可能性を高めるため、動作に基づく信頼度重み付けを導入し、注釈付き視覚出力を生成する。
実験の結果、このモデルは76.7%の精度、F1スコアは0.752、QWKは0.684で、不定形ベースラインを著しく上回ります。
これらの結果は, 順序構造を保存し, 視覚言語と運動のモダリティを活用する上で, フレームワークの有効性を示すものである。
将来の拡張には、車両サイズと精細度メトリクスの導入が含まれる。
関連論文リスト
- Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision [2.0720154517628417]
オープン語彙検出とクロスモーダル学習を組み合わせた新しいフレームワークを提案する。
交通信号検出のために,NanoVerse YOLOモデルは視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合している。
交通標識分類のための交通信号認識マルチモーダルコントラスト学習モデル(TSR-MCL)を設計した。
TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
論文 参考訳(メタデータ) (2025-07-31T08:23:30Z) - Pedestrian Intention Prediction via Vision-Language Foundation Models [10.351342371371675]
本研究では,歩行者の横断意図を予測するための視覚言語基礎モデル(VLFM)の可能性について検討する。
この方法論は、視覚的フレーム、物理的キュー観察、エゴ・車両力学などの文脈情報を体系的に洗練されたプロンプトに組み込む。
結果は、車両の速度、時間の経過とともに変化し、時間意識的なプロンプトが予測精度を19.8%まで著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-05T19:39:00Z) - Multi-Modal Traffic Analysis: Integrating Time-Series Forecasting, Accident Prediction, and Image Classification [0.0]
本研究では,高度なトラフィック分析のための統合機械学習フレームワークを提案する。
このフレームワークは時系列予測、分類、コンピュータビジョン技術を組み合わせている。
そのモジュール設計は、リアルタイム監視、事故防止、リソース最適化のためのスマートシティシステムへのデプロイメントをサポートする。
論文 参考訳(メタデータ) (2025-04-24T03:57:27Z) - DEEGITS: Deep Learning based Framework for Measuring Heterogenous Traffic State in Challenging Traffic Scenarios [0.0]
本稿では,DeEGITS(Deep Heterogeneous Traffic State Measurement)を提案する。これは最先端の畳み込みニューラルネットワーク(CNN)技術を利用して,車両や歩行者を正確にかつ迅速に検出する包括的フレームワークである。
本研究では,データ融合によるトレーニングデータセットを強化し,車両と歩行者の同時検出を可能にする。
このフレームワークは混合交通条件における異種交通状態を測定するために試験される。
論文 参考訳(メタデータ) (2024-11-13T04:49:32Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - A Holistic Framework Towards Vision-based Traffic Signal Control with
Microscopic Simulation [53.39174966020085]
交通信号制御(TSC)は交通渋滞を低減し、交通の流れを円滑にし、アイドリング時間を短縮し、CO2排出量を減らすために重要である。
本研究では,道路交通の流れを視覚的観察によって調節するTSCのコンピュータビジョンアプローチについて検討する。
我々は、視覚ベースのTSCとそのベンチマークに向けて、TrafficDojoと呼ばれる総合的なトラフィックシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-11T16:42:29Z) - Towards better traffic volume estimation: Jointly addressing the
underdetermination and nonequilibrium problems with correlation-adaptive GNNs [47.18837782862979]
本稿では, 交通量推定に関する2つの重要な問題について考察する。(1) 未検出運動による交通流の過小評価, (2) 渋滞伝播による非平衡交通流。
上記の問題に対処するために,データ駆動型,モデルフリー,相関適応型アプローチをグラフベースで実現するディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-10T02:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。