論文の概要: Efficient Majority Voting in Digital Hardware
- arxiv url: http://arxiv.org/abs/2108.03979v1
- Date: Mon, 9 Aug 2021 12:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:02:28.021721
- Title: Efficient Majority Voting in Digital Hardware
- Title(参考訳): デジタルハードウェアにおける効率的な多数決
- Authors: Stefan Baumgartner and Mario Huemer and Michael Lunglmayr
- Abstract要約: 本稿では,入力数に対数的な多数のクロックサイクルにおいて,多数決定が可能である新しいアーキテクチャを提案する。
本稿では,手書き文字認識の例として,FPGA上に実装された多数決定アーキテクチャを用いたランダムフォレスト処理エンジンを用いて,毎秒700万枚以上の画像の分類を可能にすることを示す。
- 参考スコア(独自算出の注目度): 6.411228564798412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, machine learning methods became increasingly important for a
manifold number of applications. However, they often suffer from high
computational requirements impairing their efficient use in real-time systems,
even when employing dedicated hardware accelerators. Ensemble learning methods
are especially suitable for hardware acceleration since they can be constructed
from individual learners of low complexity and thus offer large parallelization
potential. For classification, the outputs of these learners are typically
combined by majority voting, which often represents the bottleneck of a
hardware accelerator for ensemble inference. In this work, we present a novel
architecture that allows obtaining a majority decision in a number of clock
cycles that is logarithmic in the number of inputs. We show, that for the
example application of handwritten digit recognition a random forest processing
engine employing this majority decision architecture implemented on an FPGA
allows the classification of more than seven million images per second.
- Abstract(参考訳): 近年,多くの応用において機械学習手法の重要性が高まっている。
しかし、彼らはしばしば、専用のハードウェアアクセラレーターを使用する場合でも、リアルタイムシステムにおける効率的な使用を損なう高い計算要求に悩まされる。
アンサンブル学習法は,低複雑性の個別学習者から構築できるため,ハードウェアアクセラレーションに特に適している。
分類において、これらの学習者の出力は概ね多数決によって結合され、しばしばアンサンブル推論のためのハードウェアアクセラレーターのボトルネックを表す。
本研究では,入力数に対数的な多数のクロックサイクルにおいて,多数決定を下すことのできる新しいアーキテクチャを提案する。
本稿では,手書き文字認識の例として,FPGA上に実装された多数決定アーキテクチャを用いたランダムフォレスト処理エンジンを用いて,毎秒700万枚以上の画像の分類を可能にすることを示す。
関連論文リスト
- Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Majorization-based benchmark of the complexity of quantum processors [105.54048699217668]
我々は、様々な量子プロセッサの動作を数値的にシミュレートし、特徴付ける。
我々は,各デバイスの性能をベンチマークラインと比較することにより,量子複雑性を同定し,評価する。
我々は、回路の出力状態が平均して高い純度である限り、偏化ベースのベンチマークが成り立つことを発見した。
論文 参考訳(メタデータ) (2023-04-10T23:01:10Z) - Learning to Improve Code Efficiency [27.768476489523163]
Google Code Jamコンペティションから、大規模な競合プログラミングデータセットを分析します。
効率的なコードは確かに稀であり、中央値ランタイムと90分の1のソリューションとでは2倍の違いがある。
我々は、機械学習を用いてヒントの形で規範的なフィードバックを自動的に提供し、プログラマが高性能なコードを書くよう誘導することを提案する。
論文 参考訳(メタデータ) (2022-08-09T01:28:30Z) - A Deep Learning Inference Scheme Based on Pipelined Matrix
Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。
その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-10T17:31:27Z) - Semantic Scene Segmentation for Robotics Applications [51.66271681532262]
様々な設定の下で,最も成功したセマンティックシーンセグメンテーションモデルの動作を,展開(推論)速度の観点から検討する。
この研究の目的は、ロボット工学の応用要件に最も適合しているものを選択するために、現在の最先端セグメンテーションモデルの比較研究を提供することである。
論文 参考訳(メタデータ) (2021-08-25T08:55:20Z) - Overview of FPGA deep learning acceleration based on convolutional
neural network [0.76146285961466]
近年、ディープラーニングはますます成熟し、ディープラーニングの一般的なアルゴリズムとして、畳み込みニューラルネットワークは様々な視覚的タスクで広く使用されています。
本稿は,畳み込みの関連理論とアルゴリズムを主に紹介するレビュー記事である。
畳み込みニューラルネットワークに基づく既存のFPGA技術の応用シナリオをまとめ、主にアクセラレータの応用について紹介します。
論文 参考訳(メタデータ) (2020-12-23T12:44:24Z) - Hard-ODT: Hardware-Friendly Online Decision Tree Learning Algorithm and
System [17.55491405857204]
ビッグデータの時代、従来の決定木誘導アルゴリズムは大規模なデータセットの学習には適していません。
最先端のオンライン学習モデルの1つであるHoeffdingツリーの誘導を改善するための新しい量子化ベースのアルゴリズムを紹介します。
本稿では,フィールドプログラマブルゲートアレイ(FPGA)上に,システムレベルの最適化手法を用いた高性能,ハードウェア効率,スケーラブルなオンライン決定木学習システムであるHard-ODTを提案する。
論文 参考訳(メタデータ) (2020-12-11T12:06:44Z) - Generation of High-Resolution Handwritten Digits with an Ion-Trap
Quantum Computer [55.41644538483948]
本稿では, 量子回路に基づく生成モデルを構築し, 生成逆数ネットワークの事前分布を学習し, サンプル化する。
我々は、このハイブリッドアルゴリズムを171ドルのYb$+$ ion qubitsに基づいてイオントラップデバイスでトレーニングし、高品質な画像を生成する。
論文 参考訳(メタデータ) (2020-12-07T18:51:28Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。