論文の概要: Traffic Sign Recognition Using Local Vision Transformer
- arxiv url: http://arxiv.org/abs/2311.06651v1
- Date: Sat, 11 Nov 2023 19:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:30:49.569651
- Title: Traffic Sign Recognition Using Local Vision Transformer
- Title(参考訳): 局所視覚変換器を用いた交通信号認識
- Authors: Ali Farzipour, Omid Nejati Manzari, Shahriar B. Shokouhi
- Abstract要約: 本稿では,交通信号認識のための畳み込み型ネットワークと変圧器型ネットワークの両利点を融合した新しいモデルを提案する。
提案モデルには、局所的相関をキャプチャする畳み込みブロックと、グローバルな依存関係を学習するトランスフォーマーベースのブロックが含まれる。
実験により, 局所性モジュールを用いたハイブリッドネットワークは, 純粋なトランスフォーマーモデルおよび最も優れた畳み込みネットワークよりも精度が高いことを示した。
- 参考スコア(独自算出の注目度): 1.8416014644193066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognition of traffic signs is a crucial aspect of self-driving cars and
driver assistance systems, and machine vision tasks such as traffic sign
recognition have gained significant attention. CNNs have been frequently used
in machine vision, but introducing vision transformers has provided an
alternative approach to global feature learning. This paper proposes a new
novel model that blends the advantages of both convolutional and
transformer-based networks for traffic sign recognition. The proposed model
includes convolutional blocks for capturing local correlations and
transformer-based blocks for learning global dependencies. Additionally, a
locality module is incorporated to enhance local perception. The performance of
the suggested model is evaluated on the Persian Traffic Sign Dataset and German
Traffic Sign Recognition Benchmark and compared with SOTA convolutional and
transformer-based models. The experimental evaluations demonstrate that the
hybrid network with the locality module outperforms pure transformer-based
models and some of the best convolutional networks in accuracy. Specifically,
our proposed final model reached 99.66% accuracy in the German traffic sign
recognition benchmark and 99.8% in the Persian traffic sign dataset, higher
than the best convolutional models. Moreover, it outperforms existing CNNs and
ViTs while maintaining fast inference speed. Consequently, the proposed model
proves to be significantly faster and more suitable for real-world
applications.
- Abstract(参考訳): 交通標識認識は、自動運転車や運転支援システムにおいて重要な側面であり、交通標識認識などの機械視タスクが注目されている。
cnnは機械ビジョンで頻繁に使われているが、視覚トランスフォーマーの導入はグローバル機能学習に代替のアプローチを提供した。
本稿では,交通信号認識のための畳み込み型ネットワークと変圧器型ネットワークの利点を融合した新しいモデルを提案する。
提案モデルは,局所相関をキャプチャする畳み込みブロックと,グローバル依存を学習するためのトランスフォーマティブブロックを含む。
さらに、局所知覚を高めるために局所モジュールが組み込まれている。
提案モデルの性能をペルシャ交通信号データセットとドイツ交通信号認識ベンチマークで評価し,SOTA畳み込みモデルと変圧器モデルとの比較を行った。
実験評価の結果,局所性モジュールを用いたハイブリッドネットワークは,トランスフォーマーモデルや畳み込みネットワークの精度を上回っていることがわかった。
具体的には、提案した最終モデルは、ドイツのトラフィックサイン認識ベンチマークで99.66%、ペルシアのトラフィックサインデータセットで99.8%に達し、最も優れた畳み込みモデルよりも高かった。
さらに、高速な推論速度を維持しながら、既存のCNNやViTよりも優れています。
その結果,提案手法はより高速で,現実のアプリケーションに適していることがわかった。
関連論文リスト
- TSCLIP: Robust CLIP Fine-Tuning for Worldwide Cross-Regional Traffic Sign Recognition [8.890563785528842]
交通標識認識の現在の手法は、従来のディープラーニングモデルに依存している。
コントラスト型言語画像事前学習モデルを用いた頑健な微調整手法TSCLIPを提案する。
著者の知る限り、TSCLIPは世界規模のクロスリージョン交通標識認識タスクに使用される最初のコントラスト言語画像モデルである。
論文 参考訳(メタデータ) (2024-09-23T14:51:26Z) - Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers [0.0]
交通信号認識(TSR)は、運転支援システムや自動運転車において重要な役割を担っている。
本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。
従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。
論文 参考訳(メタデータ) (2024-04-29T19:18:52Z) - Traffic Pattern Classification in Smart Cities Using Deep Recurrent
Neural Network [0.519400993594577]
本稿では,ディープリカレントニューラルネットワークに基づく交通パターン分類手法を提案する。
提案モデルでは、畳み込み層と繰り返し層を組み合わせて、トラフィックパターンデータから特徴を抽出する。
その結果,提案モデルは,95%の精度でスマートシティの交通パターンを正確に分類できることがわかった。
論文 参考訳(メタデータ) (2024-01-24T20:24:32Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Pyramid Transformer for Traffic Sign Detection [1.933681537640272]
本稿では,局所性を考慮した新しいピラミッドトランスを提案する。
具体的には、Mraamid Transformerには、複数の空間ピラミッド縮小層があり、入力画像をリッチなマルチスケールコンテキストでトークンに縮小して埋め込む。
実験はドイツ交通信号検出ベンチマーク(GTSDB)で実施された。
論文 参考訳(メタデータ) (2022-07-13T09:21:19Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Federated Learning with Spike Neural Networks for Traffic Sign
Recognition [70.306089187104]
我々は、エネルギー効率と高速モデルトレーニングのための交通信号認識に強力なスパイクニューラルネットワーク(SNN)を導入している。
数値的な結果から,提案するフェデレーションSNNは,従来のフェデレーション畳み込みニューラルネットワークよりも精度,ノイズ免疫性,エネルギー効率に優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-05-28T03:11:48Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Learning dynamic and hierarchical traffic spatiotemporal features with
Transformer [4.506591024152763]
本稿では,空間時間グラフモデリングと長期交通予測のための新しいモデルであるTraffic Transformerを提案する。
Transformerは自然言語処理(NLP)で最も人気のあるフレームワークです。
注目重量行列を解析すれば 道路網の 影響力のある部分を見つけられる 交通網をよりよく学べる
論文 参考訳(メタデータ) (2021-04-12T02:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。