論文の概要: Accelerated Feature Detectors for Visual SLAM: A Comparative Study of FPGA vs GPU
- arxiv url: http://arxiv.org/abs/2510.13546v1
- Date: Wed, 15 Oct 2025 13:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.685473
- Title: Accelerated Feature Detectors for Visual SLAM: A Comparative Study of FPGA vs GPU
- Title(参考訳): Visual SLAMのためのアクセラレーション付き特徴検出器:FPGAとGPUの比較検討
- Authors: Ruiqi Ye, Mikel Luján,
- Abstract要約: 本稿では,V-SLAM(Visual SLAM)パイプラインを考慮したハードウェアアクセラレーション機能検出器の最初の研究について述べる。
我々は、GPUが加速するFAST、Harris、SuperPointの実装をFPGAが加速する実装と比較する。
その結果,GPU加速V-SLAMはFPGA加速V-SLAMよりも精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 1.213596763017329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature detection is a common yet time-consuming module in Simultaneous Localization and Mapping (SLAM) implementations, which are increasingly deployed on power-constrained platforms, such as drones. Graphics Processing Units (GPUs) have been a popular accelerator for computer vision in general, and feature detection and SLAM in particular. On the other hand, System-on-Chips (SoCs) with integrated Field Programmable Gate Array (FPGA) are also widely available. This paper presents the first study of hardware-accelerated feature detectors considering a Visual SLAM (V-SLAM) pipeline. We offer new insights by comparing the best GPU-accelerated FAST, Harris, and SuperPoint implementations against the FPGA-accelerated counterparts on modern SoCs (Nvidia Jetson Orin and AMD Versal). The evaluation shows that when using a non-learning-based feature detector such as FAST and Harris, their GPU implementations, and the GPU-accelerated V-SLAM can achieve better run-time performance and energy efficiency than the FAST and Harris FPGA implementations as well as the FPGA-accelerated V-SLAM. However, when considering a learning-based detector such as SuperPoint, its FPGA implementation can achieve better run-time performance and energy efficiency (up to 3.1$\times$ and 1.4$\times$ improvements, respectively) than the GPU implementation. The FPGA-accelerated V-SLAM can also achieve comparable run-time performance compared to the GPU-accelerated V-SLAM, with better FPS in 2 out of 5 dataset sequences. When considering the accuracy, the results show that the GPU-accelerated V-SLAM is more accurate than the FPGA-accelerated V-SLAM in general. Last but not least, the use of hardware acceleration for feature detection could further improve the performance of the V-SLAM pipeline by having the global bundle adjustment module invoked less frequently without sacrificing accuracy.
- Abstract(参考訳): 特徴検出は、ドローンなどの電力制約のあるプラットフォームにますますデプロイされるSLAM実装において、一般的だが時間を要するモジュールである。
グラフィックス処理ユニット(GPU)はコンピュータビジョンの一般的なアクセラレータであり、特に機能検出とSLAMが一般的である。
一方、FPGA(Field Programmable Gate Array)を内蔵したSystem-on-Chips(SoC)も広く利用可能である。
本稿では,V-SLAM(Visual SLAM)パイプラインを考慮したハードウェアアクセラレーション機能検出器の最初の研究について述べる。
最新のSoC(Nvidia Jetson Orin と AMD Versal)上でのFPGAアクセラレーションと、GPUアクセラレーションの最高のFAST、Harris、SuperPoint実装を比較して、新たな洞察を提供する。
評価の結果,FASTやHarrisなどの非学習型機能検出器,GPU実装,GPUアクセラレーションのV-SLAMを使用すると,FPGAアクセラレーションのV-SLAMと同様に,FASTやHarrisの実装よりも実行時の性能とエネルギー効率が向上することがわかった。
しかし、SuperPointのような学習ベースの検出器を考えると、FPGAの実装はGPUの実装よりも実行時の性能とエネルギー効率(それぞれ3.1$\times$と1.4$\times$改善)が良い。
FPGAアクセラレーションV-SLAMは、GPUアクセラレーションV-SLAMと同等のランタイム性能を達成でき、5つのデータセットシーケンスのうち2つでFPSが向上する。
この精度を考慮すると,GPU加速V-SLAMはFPGA加速V-SLAMよりも精度が高いことがわかった。
最後に、機能検出にハードウェアアクセラレーションを使用することで、精度を犠牲にすることなくグローバルバンドル調整モジュールの呼び出し頻度を下げることで、V-SLAMパイプラインの性能をさらに向上させることができる。
関連論文リスト
- GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。
我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。
我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文 参考訳(メタデータ) (2026-02-10T16:18:04Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - Faster than Fast: Accelerating Oriented FAST Feature Detection on Low-end Embedded GPUs [11.639825636679454]
本稿では,ローエンド組込みGPUにおける指向性FAST特徴検出を高速化する2つの手法を提案する。
Jetson TX2組み込みGPUの実験では、GPUをサポートする広く使われているOpenCVと比較して平均速度が7.3倍以上に向上した。
論文 参考訳(メタデータ) (2025-06-08T14:30:30Z) - Comparative Analysis of FPGA and GPU Performance for Machine Learning-Based Track Reconstruction at LHCb [28.573896827794773]
大型ハドロン衝突型加速器における光度と粒度の増加は、より効率的なデータ処理ソリューションの必要性を喚起している。
荷電粒子トラックのための有望なツールとして機械学習が登場した。
論文 参考訳(メタデータ) (2025-02-04T13:18:51Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。