論文の概要: Primitive-Driven Acceleration of Hyperdimensional Computing for Real-Time Image Classification
- arxiv url: http://arxiv.org/abs/2601.20061v1
- Date: Tue, 27 Jan 2026 21:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.663909
- Title: Primitive-Driven Acceleration of Hyperdimensional Computing for Real-Time Image Classification
- Title(参考訳): リアルタイム画像分類のための超次元計算の原始駆動高速化
- Authors: Dhruv Parikh, Jebacyril Arockiaraj, Viktor Prasanna,
- Abstract要約: 局所的な画像パッチを空間情報に富んだハイパーベクターにマッピングする画像符号化アルゴリズムを開発した。
これらのパッチレベルのハイパーベクターは、基本HDC演算を用いてグローバル表現にマージされる。
このエンコーダは、MNISTで95.67%、Fashion-MNISTで85.14%の精度を達成し、HDCベースの画像エンコーダよりも優れていた。
- 参考スコア(独自算出の注目度): 0.07646713951724012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperdimensional Computing (HDC) represents data using extremely high-dimensional, low-precision vectors, termed hypervectors (HVs), and performs learning and inference through lightweight, noise-tolerant operations. However, the high dimensionality, sparsity, and repeated data movement involved in HDC make these computations difficult to accelerate efficiently on conventional processors. As a result, executing core HDC operations: binding, permutation, bundling, and similarity search: on CPUs or GPUs often leads to suboptimal utilization, memory bottlenecks, and limits on real-time performance. In this paper, our contributions are two-fold. First, we develop an image-encoding algorithm that, similar in spirit to convolutional neural networks, maps local image patches to hypervectors enriched with spatial information. These patch-level hypervectors are then merged into a global representation using the fundamental HDC operations, enabling spatially sensitive and robust image encoding. This encoder achieves 95.67% accuracy on MNIST and 85.14% on Fashion-MNIST, outperforming prior HDC-based image encoders. Second, we design an end-to-end accelerator that implements these compute operations on an FPGA through a pipelined architecture that exploits parallelism both across the hypervector dimensionality and across the set of image patches. Our Alveo U280 implementation delivers 0.09ms inference latency, achieving up to 1300x and 60x speedup over state-of-the-art CPU and GPU baselines, respectively.
- Abstract(参考訳): 超次元コンピューティング(HDC)は、超高次元の低精度ベクトルを用いてデータを表現し、超ベクトル(HV)と呼ばれ、軽量で耐雑音性のある演算を通して学習と推論を行う。
しかし、HDCに関わる高次元性、空間性、反復的なデータ移動は、これらの計算を従来のプロセッサ上で効率的に高速化することを困難にしている。
結果として、CPUやGPU上でのバインディング、置換、バンドル、類似性検索といったコアHDC操作の実行は、しばしば最適以下の利用、メモリボトルネック、リアルタイムパフォーマンスの制限につながる。
本稿では,2つのコントリビューションについて述べる。
まず、畳み込みニューラルネットワークと同様に、局所的なイメージパッチを空間情報に富んだハイパーベクターにマッピングする画像符号化アルゴリズムを開発する。
これらのパッチレベルのハイパーベクターは、基本HDC演算を用いてグローバル表現にマージされ、空間的に敏感でロバストな画像符号化を可能にする。
このエンコーダは、MNISTで95.67%、Fashion-MNISTで85.14%の精度を達成し、HDCベースの画像エンコーダよりも優れていた。
第2に、超ベクトル次元と画像パッチの集合の並列性を利用するパイプラインアーキテクチャにより、FPGA上のこれらの計算処理を実装するエンドツーエンドアクセラレータを設計する。
当社のAlveo U280実装は0.09msの推論レイテンシを提供し、それぞれ最先端のCPUとGPUベースラインに対して最大1300xと60xのスピードアップを実現しています。
関連論文リスト
- ScalableHD: Scalable and High-Throughput Hyperdimensional Computing Inference on Multi-Core CPUs [0.0]
ハイパーベクター(HV)という,高次元ベクトルを用いた情報表現と操作
従来のHDC法はシングルパスの非パラメトリックトレーニングに依存しており、しばしば低い精度で悩まされる。
しかし、推論は軽量であり、リアルタイム実行に適している。
論文 参考訳(メタデータ) (2025-06-10T22:46:12Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - uHD: Unary Processing for Lightweight and Dynamic Hyperdimensional
Computing [1.7118124088316602]
超次元計算(Hyperdimensional Computing、HDC)は、超ベクトルと呼ばれる長次元ベクトルを扱う新しい計算パラダイムである。
本稿では,低差分シーケンスを用いてHDCの強度と位置のハイパーベクターを生成する方法を示す。
論文の中ではじめて,本提案手法では,データの効率的な符号化に一元ビットストリームを用いた軽量なベクトル生成器を用いる。
論文 参考訳(メタデータ) (2023-11-16T06:28:19Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Efficient stereo matching on embedded GPUs with zero-means cross
correlation [8.446808526407738]
本稿では,Jetson Tx2組込みGPU上でのゼロ平均正規化クロス相関(ZNCC)マッチングコスト計算アルゴリズムの高速化手法を提案する。
本手法では,ZNCCの高速化のために,Zigzag方式で対象画像をスキャンし,隣接する画素に対して1ピクセルの計算を効率的に再利用する。
本システムでは,最大1280x384ピクセル画像のJetson Tx2 GPUにおいて,32fpsのリアルタイム処理速度を示した。
論文 参考訳(メタデータ) (2022-12-01T13:03:38Z) - Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。
以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。
また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文 参考訳(メタデータ) (2022-01-02T18:35:20Z) - Parallel Discrete Convolutions on Adaptive Particle Representations of
Images [2.362412515574206]
適応粒子表現上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。
APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。
APRの畳み込みは、マルチコアCPUとGPUアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に導くことを示す。
論文 参考訳(メタデータ) (2021-12-07T09:40:05Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - SHEARer: Highly-Efficient Hyperdimensional Computing by
Software-Hardware Enabled Multifold Approximation [7.528764144503429]
我々は,HDコンピューティングの性能とエネルギー消費を改善するアルゴリズム-ハードウェア協調最適化であるSHEARerを提案する。
SHEARerは104,904x (15.7x)のスループット向上と56,044x (301x)の省エネを実現している。
また,提案した近似符号化をエミュレートすることで,HDモデルのトレーニングを可能にするソフトウェアフレームワークを開発した。
論文 参考訳(メタデータ) (2020-07-20T07:58:44Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。