論文の概要: iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo
Matching on FPGA Platform
- arxiv url: http://arxiv.org/abs/2104.05112v1
- Date: Sun, 11 Apr 2021 21:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:46:54.712325
- Title: iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo
Matching on FPGA Platform
- Title(参考訳): iELAS:FPGAプラットフォーム上でのリアルタイムステレオマッチングのためのELASベースのエネルギー効率の高い加速器
- Authors: Tian Gao, Zishen Wan, Yuyang Zhang, Bo Yu, Yanjun Zhang, Shaoshan Liu,
Arijit Raychowdhury
- Abstract要約: FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。
当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
- 参考スコア(独自算出の注目度): 21.435663827158564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching is a critical task for robot navigation and autonomous
vehicles, providing the depth estimation of surroundings. Among all stereo
matching algorithms, Efficient Large-scale Stereo (ELAS) offers one of the best
tradeoffs between efficiency and accuracy. However, due to the inherent
iterative process and unpredictable memory access pattern, ELAS can only run at
1.5-3 fps on high-end CPUs and difficult to achieve real-time performance on
low-power platforms. In this paper, we propose an energy-efficient architecture
for real-time ELAS-based stereo matching on FPGA platform. Moreover, the
original computational-intensive and irregular triangulation module is reformed
in a regular manner with points interpolation, which is much more
hardware-friendly. Optimizations, including memory management, parallelism, and
pipelining, are further utilized to reduce memory footprint and improve
throughput. Compared with Intel i7 CPU and the state-of-the-art CPU+FPGA
implementation, our FPGA realization achieves up to 38.4x and 3.32x frame rate
improvement, and up to 27.1x and 1.13x energy efficiency improvement,
respectively.
- Abstract(参考訳): ステレオマッチングは、ロボットナビゲーションと自動運転車にとって重要なタスクであり、周囲の深度を推定する。
すべてのステレオマッチングアルゴリズムの中で、ELAS(Efficient Large-scale Stereo)は効率と精度の最良のトレードオフの1つである。
しかし、固有の反復プロセスと予測不能なメモリアクセスパターンのため、elasはハイエンドcpu上で1.5-3fpsでしか動作できず、低消費電力プラットフォームでのリアルタイムパフォーマンスを達成するのが困難である。
本稿では,FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。
さらに、元の計算集約かつ不規則な三角モジュールは、よりハードウェアフレンドリーな点補間によって規則的に再構成される。
メモリ管理、並列処理、パイプライン化などの最適化により、メモリフットプリントの削減とスループット向上が実現されている。
Intel i7 CPUと最先端のCPU+FPGA実装と比較して、FPGAの実現は最大38.4xと3.32xのフレームレート改善、最大27.1xと1.13xのエネルギー効率向上を実現している。
関連論文リスト
- Understanding the Potential of FPGA-Based Spatial Acceleration for Large
Language Model Inference [12.114970711921226]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Eventor: An Efficient Event-Based Monocular Multi-View Stereo
Accelerator on FPGA Platform [11.962626341154609]
イベントカメラはバイオインスパイアされた視覚センサーで、イベントストリームとしてピクセルレベルの明るさ変化を非同期に表現する。
EMVSは、イベントストリームを利用して、既知の軌道を持つ半密度の3D構造を推定するテクニックである。
本稿では、最も重要かつ時間を要するステージを実現することにより、高速かつ効率的なEMVSアクセラレータとしてEventorを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:13:36Z) - ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and
CUDA Devices [0.36748639131154304]
FPGAは長い間、高性能コンピューティングが可能な唯一の処理ハードウェアであった。
最近のGPUベースのシステムでは、グラフィックスハードウェア上で非常に並列な組み込みコンピューティングが可能になる。
ARMおよびDJI対応デバイス上でのリアルタイムな組み込みステレオ処理手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T07:29:25Z) - FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2020-07-16T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。