論文の概要: LiFT: Lightweight, FPGA-tailored 3D object detection based on LiDAR data
- arxiv url: http://arxiv.org/abs/2501.11159v1
- Date: Sun, 19 Jan 2025 20:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:20:08.542509
- Title: LiFT: Lightweight, FPGA-tailored 3D object detection based on LiDAR data
- Title(参考訳): LiFT:LiDARデータに基づく軽量FPGA型3次元物体検出
- Authors: Konrad Lis, Tomasz Kryjak, Marek Gorgon,
- Abstract要約: LiFTはFPGAプラットフォーム上でのリアルタイム推論に最適化されたLiDARデータのための軽量で完全に量子化された3Dオブジェクト検出アルゴリズムである。
計算コストは20.73 GMACで、LiFTは最小の複雑度3Dオブジェクト検出を目的とした数少ないアルゴリズムの1つである。
- 参考スコア(独自算出の注目度): 0.5461938536945721
- License:
- Abstract: This paper presents LiFT, a lightweight, fully quantized 3D object detection algorithm for LiDAR data, optimized for real-time inference on FPGA platforms. Through an in-depth analysis of FPGA-specific limitations, we identify a set of FPGA-induced constraints that shape the algorithm's design. These include a computational complexity limit of 30 GMACs (billion multiply-accumulate operations), INT8 quantization for weights and activations, 2D cell-based processing instead of 3D voxels, and minimal use of skip connections. To meet these constraints while maximizing performance, LiFT combines novel mechanisms with state-of-the-art techniques such as reparameterizable convolutions and fully sparse architecture. Key innovations include the Dual-bound Pillar Feature Net, which boosts performance without increasing complexity, and an efficient scheme for INT8 quantization of input features. With a computational cost of just 20.73 GMACs, LiFT stands out as one of the few algorithms targeting minimal-complexity 3D object detection. Among comparable methods, LiFT ranks first, achieving an mAP of 51.84% and an NDS of 61.01% on the challenging NuScenes validation dataset. The code will be available at https://github.com/vision-agh/lift.
- Abstract(参考訳): 本稿では,FPGAプラットフォーム上でのリアルタイム推論に最適化された,軽量で完全量子化されたLiDARデータのための3次元オブジェクト検出アルゴリズムLiFTを提案する。
FPGA固有の制約を詳細に分析することにより、FPGAが引き起こす制約の集合を同定し、アルゴリズムの設計を形作る。
これには、30 GMAC(ビリオン乗算演算)の計算複雑性限界、ウェイトとアクティベーションのINT8量子化、3Dボクセルの代わりに2Dセルベースの処理、スキップ接続の最小使用が含まれる。
性能を最大化しながらこれらの制約を満たすため、LiFTは新しいメカニズムと、再パラメータ化可能な畳み込みや完全なスパースアーキテクチャといった最先端技術を組み合わせた。
主なイノベーションは、複雑さを増すことなくパフォーマンスを向上させるDual-bound Pillar Feature Netと、入力機能のINT8量子化のための効率的なスキームである。
計算コストは20.73 GMACで、LiFTは最小の複雑度3Dオブジェクト検出を目的とした数少ないアルゴリズムの1つである。
同等の方法の中で、LiFTは最初にランク付けし、51.84%のmAPと61.01%のNuScenesバリデーションデータセットを達成している。
コードはhttps://github.com/vision-agh/lift.comから入手できる。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Genetic Quantization-Aware Approximation for Non-Linear Operations in Transformers [26.62171477561166]
非線型関数はトランスフォーマーとその軽量な変種で広く使われており、ハードウェアコストは大幅に過小評価されている。
従来の最先端の作業では、これらの操作を1次線形近似により最適化し、パラメータをルックアップテーブル(LUT)に格納する。
本稿では,量子化認識を用いたパラメータの自動決定が可能な遺伝的LUT近似アルゴリズムGQA-LUTを提案する。
論文 参考訳(メタデータ) (2024-03-28T17:13:47Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Gradient Backpropagation based Feature Attribution to Enable
Explainable-AI on the Edge [1.7338677787507768]
そこで本研究では,勾配バックプロパゲーションに基づく特徴属性アルゴリズムのデータフローを解析し,推論に要するリソースのオーバーヘッドを推定する。
我々は,エッジデバイスを対象とした高レベル合成(HLS)に基づくFPGA設計を開発し,3つの特徴帰属アルゴリズムをサポートする。
提案手法は,最小限のオーバーヘッドで特徴属性をサポートするために推論アクセラレータを再利用し,エッジ上でのリアルタイムXAIを実現する経路を示す。
論文 参考訳(メタデータ) (2022-10-19T22:58:59Z) - LPYOLO: Low Precision YOLO for Face Detection on FPGA [1.7188280334580197]
監視システムにおける顔検出は、セキュリティ市場の最も期待されている応用である。
TinyYolov3アーキテクチャは、顔検出のために再設計され、デプロイされる。
Modelは、FINNフレームワークとFINN-HLSライブラリを使用して、HLSベースのアプリケーションに変換される。
論文 参考訳(メタデータ) (2022-07-21T13:54:52Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - SPEC2: SPECtral SParsE CNN Accelerator on FPGAs [31.31419913907224]
我々は、スペクトルCNNを練習し、加速する最初の研究であるSPEC2を提案する。
スパースカーネルへの効率的なランダムアクセスが可能なFPGA上に最適化されたパイプラインアーキテクチャを設計する。
得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。
論文 参考訳(メタデータ) (2019-10-16T23:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。