論文の概要: Real-Time Semantic Segmentation on FPGA for Autonomous Vehicles Using LMIINet with the CGRA4ML Framework
- arxiv url: http://arxiv.org/abs/2510.22243v1
- Date: Sat, 25 Oct 2025 10:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.948891
- Title: Real-Time Semantic Segmentation on FPGA for Autonomous Vehicles Using LMIINet with the CGRA4ML Framework
- Title(参考訳): LMIINetとCGRA4MLフレームワークを用いたFPGAのリアルタイムセマンティックセマンティックセマンティック分割
- Authors: Amir Mohammad Khadem Hosseini, Sattar Mirzakuchaki,
- Abstract要約: 本稿では,CGRA4MLハードウェアフレームワークを用いたFPGAによるリアルタイムセマンティックセマンティックセマンティクスの実装について述べる。
実装は,ZCU104 FPGA基板上で50.1msのレイテンシで,20フレーム/秒(FPS)でリアルタイムに動作している平均45%,約90%の画素精度を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation has emerged as a fundamental problem in computer vision, gaining particular importance in real-time applications such as autonomous driving. The main challenge is achieving high accuracy while operating under computational and hardware constraints. In this research, we present an FPGA-based implementation of real-time semantic segmentation leveraging the lightweight LMIINet architecture and the Coarse-Grained Reconfigurable Array for Machine Learning (CGRA4ML) hardware framework. The model was trained using Quantization-Aware Training (QAT) with 8-bit precision on the Cityscapes dataset, reducing memory footprint by a factor of four while enabling efficient fixed-point computations. Necessary modifications were applied to adapt the model to CGRA4ML constraints, including simplifying skip connections, employing hardware-friendly operations such as depthwise-separable and 1A-1 convolutions, and redesigning parts of the Flatten Transformer. Our implementation achieves approximately 90% pixel accuracy and 45% mean Intersection-over-Union (mIoU), operating in real-time at 20 frames per second (FPS) with 50.1 ms latency on the ZCU104 FPGA board. The results demonstrate the potential of CGRA4ML, with its flexibility in mapping modern layers and off-chip memory utilization for skip connections, provides a path for implementing advanced semantic segmentation networks on FPGA for real-time applications to outperform traditional GPU solutions in terms of power efficiency while maintaining competitive accuracy. The code for this project is publicly available at https://github.com/STAmirr/ cgra4ml_semantic_segmentation
- Abstract(参考訳): セマンティックセグメンテーションはコンピュータビジョンの基本的な問題として現れ、自律運転のようなリアルタイムアプリケーションにおいて特に重要になっている。
主な課題は、計算とハードウェアの制約の下で動作しながら高い精度を達成することである。
本研究では,軽量LMIINetアーキテクチャとCGRA4ML(Coarse-Grained Reconfigurable Array for Machine Learning)ハードウェアフレームワークを活用したFPGAによるリアルタイムセマンティックセマンティックセマンティクスの実装を提案する。
このモデルは、Cityscapesデータセットの8ビット精度で量子認識トレーニング(QAT)を使用してトレーニングされ、メモリフットプリントを4倍削減し、効率的な固定点計算を実現した。
このモデルをCGRA4MLの制約に適合させるためには、スキップ接続の簡素化、深度分離可能な1A-1畳み込みなどのハードウェアフレンドリな操作、フラットテントランスフォーマーの部品の再設計など、必要な修正が加えられた。
実装は,ZCU104 FPGA基板上で50.1msのレイテンシで,20フレーム/秒(FPS)でリアルタイムに動作し,約90%の精度と平均45%の平均Intersection-over-Union(mIoU)を実現している。
その結果、CGRA4MLは、近代的なレイヤのマッピングやスキップ接続のためのオフチップメモリ利用の柔軟性に富む可能性を示し、FPGA上に高度なセマンティックセマンティックセマンティクスネットワークを実装して、競争精度を維持しつつ、従来のGPUソリューションより優れていることを示す。
このプロジェクトのコードはhttps://github.com/STAmirr/cgra4ml_semantic_segmentationで公開されている。
関連論文リスト
- TeLLMe v2: An Efficient End-to-End Ternary LLM Prefill and Decode Accelerator with Table-Lookup Matmul on Edge FPGAs [9.646882213709814]
TeLLMeは、低消費電力のエッジFPGAのためのテーブルルックアップベースの3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
5Wの電力予算の下では、TeLLMeは最大25tokens/sデコードスループットを提供する。
論文 参考訳(メタデータ) (2025-10-03T05:37:51Z) - Real-Time Semantic Segmentation of Aerial Images Using an Embedded U-Net: A Comparison of CPU, GPU, and FPGA Workflows [0.0]
本研究では,航空画像のリアルタイムセマンティックセグメンテーションに最適化された軽量なU-Netモデルを提案する。
実世界のデータセット上でのU-Netの精度を維持しながら、モデルのパラメータと乗算(MAC)操作を16。
論文 参考訳(メタデータ) (2025-03-07T08:33:28Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - Embedded Graph Convolutional Networks for Real-Time Event Data Processing on SoC FPGAs [0.815557531820863]
我々は、PointNetConv用に最適化されたハードウェアを意識した一連の最適化を設計したEFGCN(Event-based FPGA-accelerated Graph Convolutional Network)を紹介する。
提案手法は,AEGNN (Asynchronous Event-based GNN) と比較して,モデルサイズを最大100倍に削減する。
提案手法は,高度にスケーラブルでカスタマイズ可能なリソース効率を維持しつつ,複数のイベントベース分類ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-11T14:47:36Z) - FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。
私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。
提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文 参考訳(メタデータ) (2023-11-04T10:38:21Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。