論文の概要: Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision
- arxiv url: http://arxiv.org/abs/2507.23331v1
- Date: Thu, 31 Jul 2025 08:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.317544
- Title: Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision
- Title(参考訳): 対照的な学習駆動型交通信号認識:テキストと視覚のマルチモーダル融合
- Authors: Qiang Lu, Waikit Xiu, Xiying Li, Shenyu Hu, Shengbo Sun,
- Abstract要約: オープン語彙検出とクロスモーダル学習を組み合わせた新しいフレームワークを提案する。
交通信号検出のために,NanoVerse YOLOモデルは視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合している。
交通標識分類のための交通信号認識マルチモーダルコントラスト学習モデル(TSR-MCL)を設計した。
TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
- 参考スコア(独自算出の注目度): 2.0720154517628417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic sign recognition, as a core component of autonomous driving perception systems, directly influences vehicle environmental awareness and driving safety. Current technologies face two significant challenges: first, the traffic sign dataset exhibits a pronounced long-tail distribution, resulting in a substantial decline in recognition performance of traditional convolutional networks when processing low-frequency and out-of-distribution classes; second, traffic signs in real-world scenarios are predominantly small targets with significant scale variations, making it difficult to extract multi-scale features.To overcome these issues, we propose a novel two-stage framework combining open-vocabulary detection and cross-modal learning. For traffic sign detection, our NanoVerse YOLO model integrates a reparameterizable vision-language path aggregation network (RepVL-PAN) and an SPD-Conv module to specifically enhance feature extraction for small, multi-scale targets. For traffic sign classification, we designed a Traffic Sign Recognition Multimodal Contrastive Learning model (TSR-MCL). By contrasting visual features from a Vision Transformer with semantic features from a rule-based BERT, TSR-MCL learns robust, frequency-independent representations, effectively mitigating class confusion caused by data imbalance. On the TT100K dataset, our method achieves a state-of-the-art 78.4% mAP in the long-tail detection task for all-class recognition. The model also obtains 91.8% accuracy and 88.9% recall, significantly outperforming mainstream algorithms and demonstrating superior accuracy and generalization in complex, open-world scenarios.
- Abstract(参考訳): 交通標識認識は、自律運転認識システムの中核的な構成要素であり、自動車の環境認識と運転安全に直接影響を及ぼす。
第1に,交通標識データセットは,低周波・外分布クラス処理における従来の畳み込みネットワークの認識性能を著しく低下させ,第2に,現実のシナリオにおける交通標識は比較的小さなターゲットであり,大規模な特徴を抽出することが困難であり,これらの課題を克服するために,オープン語彙検出とクロスモーダル学習を組み合わせた新しい2段階のフレームワークを提案する。
交通信号検出のために,NanoVerse YOLOモデルでは,再パラメータ化可能な視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合し,小型でマルチスケールなターゲットに対する特徴抽出を強化する。
交通標識分類のために,交通信号認識マルチモーダルコントラスト学習モデル (TSR-MCL) を設計した。
ビジョン変換器の視覚特徴とルールベースのBERTのセマンティック特徴とを対比することにより、TSR-MCLは堅牢で周波数に依存しない表現を学習し、データ不均衡に起因するクラス混乱を効果的に軽減する。
TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
また、91.8%の精度と88.9%のリコールが得られ、主要なアルゴリズムを著しく上回り、複雑なオープンワールドシナリオにおいてより優れた精度と一般化を示す。
関連論文リスト
- Lane-Wise Highway Anomaly Detection [8.086502588472783]
本稿では,車線道路交通異常検出のためのスケーラブルかつ解釈可能なフレームワークを提案する。
従来のセンサ依存の手法とは異なり、我々の手法はAIを利用した視覚モデルを用いて車線固有の特徴を抽出する。
我々のフレームワークは、精度、リコール、F1スコアにおいて最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-05-05T12:32:23Z) - Visual Dominance and Emerging Multimodal Approaches in Distracted Driving Detection: A Review of Machine Learning Techniques [3.378738346115004]
引き離された運転は、世界中の道路交通事故と死者の大きな原因であり続けている。
機械学習(ML)とディープラーニング(DL)の最近の進歩は、主に注意散逸を検出する視覚データに焦点を当てている。
本稿では,ML/DL技術を用いた視覚的,センサベース,マルチモーダル,新興モダリティを横断する運転検出のための74つの研究を体系的に評価する。
論文 参考訳(メタデータ) (2025-05-04T02:51:00Z) - Cross-domain Multi-step Thinking: Zero-shot Fine-grained Traffic Sign Recognition in the Wild [49.20086587208214]
クロスドメイン マルチステップシンキング (CdMT) は、野生におけるゼロショットきめ細かなトラフィックサイン認識(TSR)の性能を改善することを提案した。
CdMTはトレーニングデータとは独立であり、単純で均一な命令のみを必要とするため、クロスカントリーのTSRを実現することができる。
フレームワークは5つのデータセット上の他の最先端メソッドよりも優れたパフォーマンスを実現した。
論文 参考訳(メタデータ) (2024-09-03T02:08:47Z) - Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers [0.0]
交通信号認識(TSR)は、運転支援システムや自動運転車において重要な役割を担っている。
本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。
従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。
論文 参考訳(メタデータ) (2024-04-29T19:18:52Z) - Traffic Sign Recognition Using Local Vision Transformer [1.8416014644193066]
本稿では,交通信号認識のための畳み込み型ネットワークと変圧器型ネットワークの両利点を融合した新しいモデルを提案する。
提案モデルには、局所的相関をキャプチャする畳み込みブロックと、グローバルな依存関係を学習するトランスフォーマーベースのブロックが含まれる。
実験により, 局所性モジュールを用いたハイブリッドネットワークは, 純粋なトランスフォーマーモデルおよび最も優れた畳み込みネットワークよりも精度が高いことを示した。
論文 参考訳(メタデータ) (2023-11-11T19:42:41Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z) - Traffic Signs Detection and Recognition System using Deep Learning [0.0]
本稿では,交通標識をリアルタイムに検出・認識するためのアプローチについて述べる。
マルチオブジェクト検出システムの最先端技術を用いて,交通信号検出問題に取り組む。
この論文の焦点は、F-RCNN Inception v2とTiny YOLO v2が最高の結果を得たときのものである。
論文 参考訳(メタデータ) (2020-03-06T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。