Fugu-MT 論文翻訳(概要): iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo Matching on FPGA Platform

論文の概要: iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo Matching on FPGA Platform

arxiv url: http://arxiv.org/abs/2104.05112v1
Date: Sun, 11 Apr 2021 21:22:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-13 13:46:54.712325
Title: iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo Matching on FPGA Platform
Title（参考訳）: iELAS:FPGAプラットフォーム上でのリアルタイムステレオマッチングのためのELASベースのエネルギー効率の高い加速器
Authors: Tian Gao, Zishen Wan, Yuyang Zhang, Bo Yu, Yanjun Zhang, Shaoshan Liu, Arijit Raychowdhury
Abstract要約: FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
参考スコア（独自算出の注目度）: 21.435663827158564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stereo matching is a critical task for robot navigation and autonomous vehicles, providing the depth estimation of surroundings. Among all stereo matching algorithms, Efficient Large-scale Stereo (ELAS) offers one of the best tradeoffs between efficiency and accuracy. However, due to the inherent iterative process and unpredictable memory access pattern, ELAS can only run at 1.5-3 fps on high-end CPUs and difficult to achieve real-time performance on low-power platforms. In this paper, we propose an energy-efficient architecture for real-time ELAS-based stereo matching on FPGA platform. Moreover, the original computational-intensive and irregular triangulation module is reformed in a regular manner with points interpolation, which is much more hardware-friendly. Optimizations, including memory management, parallelism, and pipelining, are further utilized to reduce memory footprint and improve throughput. Compared with Intel i7 CPU and the state-of-the-art CPU+FPGA implementation, our FPGA realization achieves up to 38.4x and 3.32x frame rate improvement, and up to 27.1x and 1.13x energy efficiency improvement, respectively.
Abstract（参考訳）: ステレオマッチングは、ロボットナビゲーションと自動運転車にとって重要なタスクであり、周囲の深度を推定する。すべてのステレオマッチングアルゴリズムの中で、ELAS(Efficient Large-scale Stereo)は効率と精度の最良のトレードオフの1つである。しかし、固有の反復プロセスと予測不能なメモリアクセスパターンのため、elasはハイエンドcpu上で1.5-3fpsでしか動作できず、低消費電力プラットフォームでのリアルタイムパフォーマンスを達成するのが困難である。本稿では,FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。さらに、元の計算集約かつ不規則な三角モジュールは、よりハードウェアフレンドリーな点補間によって規則的に再構成される。メモリ管理、並列処理、パイプライン化などの最適化により、メモリフットプリントの削減とスループット向上が実現されている。 Intel i7 CPUと最先端のCPU+FPGA実装と比較して、FPGAの実現は最大38.4xと3.32xのフレームレート改善、最大27.1xと1.13xのエネルギー効率向上を実現している。

関連論文リスト

iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文参考訳（メタデータ） (2025-03-20T19:10:37Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part II: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。 TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文参考訳（メタデータ） (2024-08-05T10:18:00Z)
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文参考訳（メタデータ） (2024-05-27T10:25:08Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。 CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文参考訳（メタデータ） (2023-04-24T22:20:42Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
Eventor: An Efficient Event-Based Monocular Multi-View Stereo Accelerator on FPGA Platform [11.962626341154609]
イベントカメラはバイオインスパイアされた視覚センサーで、イベントストリームとしてピクセルレベルの明るさ変化を非同期に表現する。 EMVSは、イベントストリームを利用して、既知の軌道を持つ半密度の3D構造を推定するテクニックである。本稿では、最も重要かつ時間を要するステージを実現することにより、高速かつ効率的なEMVSアクセラレータとしてEventorを提案する。
論文参考訳（メタデータ） (2022-03-29T11:13:36Z)
ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and CUDA Devices [0.36748639131154304]
FPGAは長い間、高性能コンピューティングが可能な唯一の処理ハードウェアであった。最近のGPUベースのシステムでは、グラフィックスハードウェア上で非常に並列な組み込みコンピューティングが可能になる。 ARMおよびDJI対応デバイス上でのリアルタイムな組み込みステレオ処理手法を提案する。
論文参考訳（メタデータ） (2021-06-15T07:29:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。