論文の概要: Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2502.07417v1
- Date: Tue, 11 Feb 2025 09:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:38.990127
- Title: Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving
- Title(参考訳): Fast-COS: 自律運転用再パラメータ化アテンション・ビジョン・トランスを用いた高速1段階物体検出装置
- Authors: Novendra Setyawan, Ghufron Wahyu Kurniawan, Chi-Chia Sun, Wen-Kai Kuo, Jun-Wei Hsieh,
- Abstract要約: 本稿では、シーンを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。
RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成した。
主要なモデルの効率を上回り、最大75.9%のGPU推論速度とエッジデバイスでの1.38のスループットを提供する。
- 参考スコア(独自算出の注目度): 3.617580194719686
- License:
- Abstract: The perception system is a a critical role of an autonomous driving system for ensuring safety. The driving scene perception system fundamentally represents an object detection task that requires achieving a balance between accuracy and processing speed. Many contemporary methods focus on improving detection accuracy but often overlook the importance of real-time detection capabilities when computational resources are limited. Thus, it is vital to investigate efficient object detection strategies for driving scenes. This paper introduces Fast-COS, a novel single-stage object detection framework crafted specifically for driving scene applications. The research initiates with an analysis of the backbone, considering both macro and micro architectural designs, yielding the Reparameterized Attention Vision Transformer (RAViT). RAViT utilizes Reparameterized Multi-Scale Depth-Wise Convolution (RepMSDW) and Reparameterized Self-Attention (RepSA) to enhance computational efficiency and feature extraction. In extensive tests across GPU, edge, and mobile platforms, RAViT achieves 81.4% Top-1 accuracy on the ImageNet-1K dataset, demonstrating significant throughput improvements over comparable backbone models such as ResNet, FastViT, RepViT, and EfficientFormer. Additionally, integrating RepMSDW into a feature pyramid network forms RepFPN, enabling fast and multi-scale feature fusion. Fast-COS enhances object detection in driving scenes, attaining an AP50 score of 57.2% on the BDD100K dataset and 80.0% on the TJU-DHD Traffic dataset. It surpasses leading models in efficiency, delivering up to 75.9% faster GPU inference and 1.38 higher throughput on edge devices compared to FCOS, YOLOF, and RetinaNet. These findings establish Fast-COS as a highly scalable and reliable solution suitable for real-time applications, especially in resource-limited environments like autonomous driving systems
- Abstract(参考訳): 認識システムは、安全を確保するための自律運転システムの重要な役割である。
駆動シーン認識システムは、基本的に、精度と処理速度のバランスをとる必要がある物体検出タスクを表す。
現代の多くの手法は検出精度の向上に重点を置いているが、計算資源が限られている場合、リアルタイム検出能力の重要性をしばしば見落としている。
したがって、シーンを駆動するための効率的な物体検出戦略を検討することが不可欠である。
本稿では,シーンアプリケーションを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。
この研究は、マクロとマイクロアーキテクチャの両方を考慮し、バックボーンの分析から始まり、RAViT(Reparameterized Attention Vision Transformer)が生み出された。
RAViTは、Reparameterized Multi-Scale Depth-Wise Convolution(RepMSDW)とReparameterized Self-Attention(RepSA)を使用して、計算効率と特徴抽出を強化する。
GPU、エッジ、モバイルプラットフォームにわたる広範なテストにおいて、RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成し、ResNet、FastViT、RepViT、EfficientFormerといった同等のバックボーンモデルよりも大幅にスループットが改善された。
さらに、RepMSDWを機能ピラミッドネットワークに統合すると、RepFPNが形成される。
Fast-COSはドライブシーンにおけるオブジェクト検出を強化し、BDD100KデータセットではAP50スコアが57.2%、TJU-DHDトラフィックデータセットでは80.0%に達した。
FCOS、YOLOF、RetinaNetと比較して、エッジデバイスで最大75.9%高速なGPU推論と1.38高いスループットを提供する。
これらの知見は、特に自律運転システムのようなリソース制限環境において、リアルタイムアプリケーションに適した、高度にスケーラブルで信頼性の高いソリューションとして、Fast-COSを確立している。
関連論文リスト
- YOLO-Vehicle-Pro: A Cloud-Edge Collaborative Framework for Object Detection in Autonomous Driving under Adverse Weather Conditions [8.820126303110545]
本稿では, YOLO-VehicleとYOLO-Vehicle-Proの2つの革新的なディープラーニングモデルを提案する。
YOLO-Vehicleは、自動運転シナリオに特化したオブジェクト検出モデルである。
YOLO-Vehicle-Proはこの基盤の上に構築されており、改良されたイメージデハージングアルゴリズムを導入している。
論文 参考訳(メタデータ) (2024-10-23T10:07:13Z) - P-YOLOv8: Efficient and Accurate Real-Time Detection of Distracted Driving [0.0]
引き離された運転は重大な安全上の問題であり、世界中で多くの死者と負傷につながっている。
本研究では、注意をそらされた運転行動を検出するための効率的でリアルタイムな機械学習モデルの必要性に対処する。
リアルタイムオブジェクト検出システムを導入し、速度と精度の両方に最適化する。
論文 参考訳(メタデータ) (2024-10-21T02:56:44Z) - Real-Time Pedestrian Detection on IoT Edge Devices: A Lightweight Deep Learning Approach [1.4732811715354455]
本研究では,AIoT(Artificial Intelligence of Things)エッジデバイス上での軽量ディープラーニングモデルの実装について検討する。
You Only Look Once (YOLO)ベースのDLモデルは、リアルタイムな歩行者検出のためにデプロイされる。
シミュレーションの結果、最適化されたYOLOモデルは、高速な推論速度147ミリ秒、フレームレート2.3フレーム/秒、精度78%でリアルタイムな歩行者検出を実現できることが示された。
論文 参考訳(メタデータ) (2024-09-24T04:48:41Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Lightweight Object Detection: A Study Based on YOLOv7 Integrated with
ShuffleNetv2 and Vision Transformer [0.0]
本研究は、モバイルプラットフォーム上での運用効率と速度を向上させるために、YOLOv7アルゴリズムの最適化をゼロにする。
実験結果から, 改良されたYOLOモデルは優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-04T05:29:32Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Oriented R-CNN for Object Detection [61.78746189807462]
本研究では、オブジェクト指向R-CNNと呼ばれる、効果的でシンプルなオブジェクト指向オブジェクト検出フレームワークを提案する。
第1段階では,高品質な指向型提案をほぼ無償で直接生成する指向型領域提案ネットワーク(指向RPN)を提案する。
第2段階は、R-CNNヘッダーで、興味のある領域(オブジェクト指向のRoI)を精製し、認識する。
論文 参考訳(メタデータ) (2021-08-12T12:47:43Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。