論文の概要: Pyramid Transformer for Traffic Sign Detection
- arxiv url: http://arxiv.org/abs/2207.06067v1
- Date: Wed, 13 Jul 2022 09:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 15:06:36.500347
- Title: Pyramid Transformer for Traffic Sign Detection
- Title(参考訳): 交通標識検出用ピラミッドトランス
- Authors: Omid Nejati Manzari, Amin Boudesh, Shahriar B. Shokouhi
- Abstract要約: 本稿では,局所性を考慮した新しいピラミッドトランスを提案する。
具体的には、Mraamid Transformerには、複数の空間ピラミッド縮小層があり、入力画像をリッチなマルチスケールコンテキストでトークンに縮小して埋め込む。
実験はドイツ交通信号検出ベンチマーク(GTSDB)で実施された。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic sign detection is a vital task in the visual system of self-driving
cars and the automated driving system. Recently, novel Transformer-based models
have achieved encouraging results for various computer vision tasks. We still
observed that vanilla ViT could not yield satisfactory results in traffic sign
detection because the overall size of the datasets is very small and the class
distribution of traffic signs is extremely unbalanced. To overcome this
problem, a novel Pyramid Transformer with locality mechanisms is proposed in
this paper. Specifically, Pyramid Transformer has several spatial pyramid
reduction layers to shrink and embed the input image into tokens with rich
multi-scale context by using atrous convolutions. Moreover, it inherits an
intrinsic scale invariance inductive bias and is able to learn local feature
representation for objects at various scales, thereby enhancing the network
robustness against the size discrepancy of traffic signs. The experiments are
conducted on the German Traffic Sign Detection Benchmark (GTSDB). The results
demonstrate the superiority of the proposed model in the traffic sign detection
tasks. More specifically, Pyramid Transformer achieves 75.6% mAP in GTSDB when
applied to the Cascade RCNN as the backbone and surpassing most well-known and
widely used SOTAs.
- Abstract(参考訳): 交通標識検出は、自動運転車の視覚システムと自動運転システムにおいて重要なタスクである。
近年,新しいトランスフォーマーモデルが様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
バニラVTは,データセットの全体サイズが非常に小さく,交通標識のクラス分布が極めて不均衡であるため,交通標識検出において良好な結果が得られなかった。
この問題を克服するために,局所性機構を持つ新しいピラミッドトランスが提案されている。
具体的には、ピラミッド変換器は、アトラス畳み込みを用いて、入力画像をリッチなマルチスケールコンテキストでトークンに縮小して埋め込むために、いくつかの空間ピラミッド縮小層を有する。
さらに本質的なスケール不変性インダクティブバイアスを継承し、様々なスケールでオブジェクトの局所的な特徴表現を学習できるため、交通標識の大きさの差に対してネットワークロバスト性が向上する。
実験はドイツ交通信号検出ベンチマーク(GTSDB)で実施された。
その結果,交通標識検出タスクにおけるモデルの有効性が示された。
より具体的には、ピラミドトランスフォーマーはカスケードRCNNにバックボーンとして適用され、最もよく知られ広く使われているSOTAを超えると、GTSDBの75.6%のmAPを達成する。
関連論文リスト
- Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - Traffic Sign Recognition Using Local Vision Transformer [1.8416014644193066]
本稿では,交通信号認識のための畳み込み型ネットワークと変圧器型ネットワークの両利点を融合した新しいモデルを提案する。
提案モデルには、局所的相関をキャプチャする畳み込みブロックと、グローバルな依存関係を学習するトランスフォーマーベースのブロックが含まれる。
実験により, 局所性モジュールを用いたハイブリッドネットワークは, 純粋なトランスフォーマーモデルおよび最も優れた畳み込みネットワークよりも精度が高いことを示した。
論文 参考訳(メタデータ) (2023-11-11T19:42:41Z) - Efficient Vision Transformer for Accurate Traffic Sign Detection [0.0]
本研究では,自動運転車や運転支援システムにおける交通標識検出の課題について論じる。
この課題に対処するため、Transformerモデル、特にVision Transformerの派生版が導入された。
本研究はトランスフォーマーモデルの効率を高めるために,局所性帰納バイアスとトランスフォーマーモジュールを統合する新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-11-02T17:44:32Z) - Distinguishing a planetary transit from false positives: a
Transformer-based classification for planetary transit signals [2.2530415657791036]
交通信号の自動分類のための新しいアーキテクチャを提案する。
提案アーキテクチャは、トランジット信号と恒星パラメータの最も重要な特徴を捉えるように設計されている。
我々は,太陽系外惑星トランジット信号の認識に応用されたCNNに関する競合的な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-27T15:43:25Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Detecting Lane and Road Markings at A Distance with Perspective
Transformer Layers [5.033948921121557]
既存の手法では、検出精度は距離の増大とともに劣化することが多い。
これは、遠車線や道路標識が画像中の少数のピクセルを占有しているためである。
逆のパースペクティブマッピングは、パースペクティブの歪みを取り除くために使用できるが、本質的にはアーティファクトに繋がる可能性がある。
論文 参考訳(メタデータ) (2020-03-19T03:22:52Z) - Traffic Signs Detection and Recognition System using Deep Learning [0.0]
本稿では,交通標識をリアルタイムに検出・認識するためのアプローチについて述べる。
マルチオブジェクト検出システムの最先端技術を用いて,交通信号検出問題に取り組む。
この論文の焦点は、F-RCNN Inception v2とTiny YOLO v2が最高の結果を得たときのものである。
論文 参考訳(メタデータ) (2020-03-06T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。