論文の概要: HEPPO: Hardware-Efficient Proximal Policy Optimization -- A Universal Pipelined Architecture for Generalized Advantage Estimation
- arxiv url: http://arxiv.org/abs/2501.12703v1
- Date: Wed, 22 Jan 2025 08:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:04.584990
- Title: HEPPO: Hardware-Efficient Proximal Policy Optimization -- A Universal Pipelined Architecture for Generalized Advantage Estimation
- Title(参考訳): HEPPO: ハードウェア効率の良い近似ポリシー最適化 -- 汎用アドバンテージ推定のためのユニバーサルパイプラインアーキテクチャ
- Authors: Hazem Taha, Ameer M. S. Abdelhadi,
- Abstract要約: HEPPOはFPGAベースのアクセラレーターで、プロキシポリシー最適化における一般化アドバンテージ推定の段階を最適化するために設計された。
鍵となる革新は、動的報酬標準化と値のブロック標準化を組み合わせた戦略的標準化技術であり、8ビット均一量子化が続く。
私たちのシングルチップソリューションは通信遅延とスループットのボトルネックを最小限にし、PPOトレーニングの効率を大幅に向上します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces HEPPO, an FPGA-based accelerator designed to optimize the Generalized Advantage Estimation (GAE) stage in Proximal Policy Optimization (PPO). Unlike previous approaches that focused on trajectory collection and actor-critic updates, HEPPO addresses GAE's computational demands with a parallel, pipelined architecture implemented on a single System-on-Chip (SoC). This design allows for the adaptation of various hardware accelerators tailored for different PPO phases. A key innovation is our strategic standardization technique, which combines dynamic reward standardization and block standardization for values, followed by 8-bit uniform quantization. This method stabilizes learning, enhances performance, and manages memory bottlenecks, achieving a 4x reduction in memory usage and a 1.5x increase in cumulative rewards. We propose a solution on a single SoC device with programmable logic and embedded processors, delivering throughput orders of magnitude higher than traditional CPU-GPU systems. Our single-chip solution minimizes communication latency and throughput bottlenecks, significantly boosting PPO training efficiency. Experimental results show a 30% increase in PPO speed and a substantial reduction in memory access time, underscoring HEPPO's potential for broad applicability in hardware-efficient reinforcement learning algorithms.
- Abstract(参考訳): 本稿では,PPOにおけるGAE(Generalized Advantage Estimation)ステージの最適化を目的としたFPGAベースのアクセラレータであるHEPPOを紹介する。
トラジェクトリコレクションとアクタクリティカルな更新に焦点を当てた従来のアプローチとは異なり、HEPPOは単一のSystem-on-Chip (SoC)上に実装された並列パイプラインアーキテクチャでGAEの計算要求に対処する。
この設計により、様々なPPOフェーズ用に調整された様々なハードウェアアクセラレータの適応が可能になる。
鍵となる革新は、動的報酬標準化と値のブロック標準化を組み合わせた戦略標準化技術であり、8ビット均一量子化が続く。
この方法は、学習を安定させ、性能を高め、メモリボトルネックを管理し、メモリ使用量の4倍の削減と累積報酬の1.5倍の増大を達成する。
本稿では,プログラマブルロジックと組み込みプロセッサを備えた単一SoCデバイス上で,従来のCPU-GPUシステムよりもスループットのオーダを桁違いに高めるソリューションを提案する。
私たちのシングルチップソリューションは通信遅延とスループットのボトルネックを最小限にし、PPOトレーニングの効率を大幅に向上します。
実験結果から,ハードウェア効率の強化学習アルゴリズムにおけるHEPPOの適用可能性について,PPO速度が30%向上し,メモリアクセス時間が大幅に短縮された。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms [77.71341200638416]
ChiPBenchはAIベースのチップ配置アルゴリズムの有効性を評価するために設計されたベンチマークである。
評価のために、さまざまなドメイン(CPU、GPU、マイクロコントローラなど)から20の回路を集めました。
その結果, 単点アルゴリズムの中間距離が支配的であったとしても, 最終的なPPA結果は満足できないことがわかった。
論文 参考訳(メタデータ) (2024-07-03T03:29:23Z) - Line Search Strategy for Navigating through Barren Plateaus in Quantum Circuit Training [0.0]
変分量子アルゴリズムは、短期デバイスにおける量子優位性を示すための有望な候補と見なされている。
本研究では,回路トレーニングにおけるバレンプラトー問題(BP)の悪影響を軽減するために,新しい最適化手法を提案する。
我々は16ドルキュービットと15,000ドルのエンタングゲートからなる量子回路に最適化戦略を適用した。
論文 参考訳(メタデータ) (2024-02-07T20:06:29Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based
Heterogeneous Computing Cores [26.38812379700231]
FPGAを用いたニューラルネットワーク高速化のための異種計算システムを開発した。
提案するアクセラレータは、DSPとLUTをベースとしたGEMM(GEneral Matrix-Multiplication)コンピューティングコアで構成されている。
我々の設計では、最新のMix&Match設計よりも遅延が1.12-1.32x削減され、推論精度が向上した。
論文 参考訳(メタデータ) (2021-12-15T15:12:00Z) - WinoCNN: Kernel Sharing Winograd Systolic Array for Efficient
Convolutional Neural Network Acceleration on FPGAs [8.73707548868892]
我々はまず、最適化されたWinograd処理要素(WinoPE)を提案する。
我々は、WinoCNNと呼ばれる高効率なサイストリックアレイ加速器を構築した。
提案するアクセラレータを複数のFPGA上で実装し、スループットとDSP効率の両方で最先端の設計を上回ります。
論文 参考訳(メタデータ) (2021-07-09T06:37:47Z) - ExPAN(N)D: Exploring Posits for Efficient Artificial Neural Network
Design in FPGA-based Systems [4.2612881037640085]
本稿では,ANNに対するポジット数表現方式の有効性と不動点演算の実装効率を解析し,比較する。
本稿では,ANNのための高性能かつ省エネなハードウェア実装を実現するための,新しい固定点変換器Posit to Fix-pointを提案する。
論文 参考訳(メタデータ) (2020-10-24T11:02:25Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。