論文の概要: Efficient Vision Transformer for Accurate Traffic Sign Detection
- arxiv url: http://arxiv.org/abs/2311.01429v1
- Date: Thu, 2 Nov 2023 17:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 12:38:24.451081
- Title: Efficient Vision Transformer for Accurate Traffic Sign Detection
- Title(参考訳): 交通信号検出のための高能率視覚変換器
- Authors: Javad Mirzapour Kaleybar, Hooman Khaloo, Avaz Naghipour
- Abstract要約: 本研究では,自動運転車や運転支援システムにおける交通標識検出の課題について論じる。
この課題に対処するため、Transformerモデル、特にVision Transformerの派生版が導入された。
本研究はトランスフォーマーモデルの効率を高めるために,局所性帰納バイアスとトランスフォーマーモジュールを統合する新しい戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research paper addresses the challenges associated with traffic sign
detection in self-driving vehicles and driver assistance systems. The
development of reliable and highly accurate algorithms is crucial for the
widespread adoption of traffic sign recognition and detection (TSRD) in diverse
real-life scenarios. However, this task is complicated by suboptimal traffic
images affected by factors such as camera movement, adverse weather conditions,
and inadequate lighting. This study specifically focuses on traffic sign
detection methods and introduces the application of the Transformer model,
particularly the Vision Transformer variants, to tackle this task. The
Transformer's attention mechanism, originally designed for natural language
processing, offers improved parallel efficiency. Vision Transformers have
demonstrated success in various domains, including autonomous driving, object
detection, healthcare, and defense-related applications. To enhance the
efficiency of the Transformer model, the research proposes a novel strategy
that integrates a locality inductive bias and a transformer module. This
includes the introduction of the Efficient Convolution Block and the Local
Transformer Block, which effectively capture short-term and long-term
dependency information, thereby improving both detection speed and accuracy.
Experimental evaluations demonstrate the significant advancements achieved by
this approach, particularly when applied to the GTSDB dataset.
- Abstract(参考訳): 本研究では,自動運転車や運転支援システムにおける交通標識検出の課題について論じる。
信頼性が高く高精度なアルゴリズムの開発は、様々な実生活シナリオにおける交通標識認識・検出(TSRD)の普及に不可欠である。
しかし, この課題は, カメラの動き, 悪天候条件, 照明不足などの影響を受けやすい交通画像によって複雑になる。
本研究は,交通信号の検出方法に特化して,この課題に対処するためのトランスフォーマーモデル,特にビジョントランスフォーマー変種の適用について紹介する。
Transformerのアテンションメカニズムは、元々自然言語処理用に設計されたもので、並列性を改善する。
vision transformersは、自動運転、オブジェクト検出、ヘルスケア、防衛関連のアプリケーションなど、さまざまな領域で成功を収めている。
本研究は,変圧器モデルの効率を高めるために,局所的帰納バイアスと変圧器モジュールを統合する新しい手法を提案する。
これには効率的な畳み込みブロックとローカルトランスフォーマーブロックが導入され、短期および長期の依存関係情報を効果的にキャプチャし、検出速度と精度の両方を改善する。
実験的評価は、特にGTSDBデータセットに適用された場合、このアプローチによって達成された顕著な進歩を示している。
関連論文リスト
- GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction [6.327758022051579]
GTransPDMは多モード特徴を利用した歩行者横断意図予測のために開発された。
PIEデータセットでは92%の精度で、JAADデータセットでは87%の精度で処理速度は0.05msである。
論文 参考訳(メタデータ) (2024-09-30T12:02:17Z) - Object Detection using Oriented Window Learning Vi-sion Transformer: Roadway Assets Recognition [4.465427147188149]
Oriented Window Learning Vision Transformer (OWL-ViT) は、オブジェクトの幾何学と存在に窓の向きを適応させることによって、新しいアプローチを提供する。
本研究では、OWL-ViTをワンショット学習フレームワークで活用し、交通標識、ポール、舗装、ひび割れなどの交通インフラコンポーネントを認識する。
論文 参考訳(メタデータ) (2024-06-15T18:49:42Z) - Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers [0.0]
交通信号認識(TSR)は、運転支援システムや自動運転車において重要な役割を担っている。
本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。
従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。
論文 参考訳(メタデータ) (2024-04-29T19:18:52Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Pyramid Transformer for Traffic Sign Detection [1.933681537640272]
本稿では,局所性を考慮した新しいピラミッドトランスを提案する。
具体的には、Mraamid Transformerには、複数の空間ピラミッド縮小層があり、入力画像をリッチなマルチスケールコンテキストでトークンに縮小して埋め込む。
実験はドイツ交通信号検出ベンチマーク(GTSDB)で実施された。
論文 参考訳(メタデータ) (2022-07-13T09:21:19Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。