論文の概要: FIXAR: A Fixed-Point Deep Reinforcement Learning Platform with
Quantization-Aware Training and Adaptive Parallelism
- arxiv url: http://arxiv.org/abs/2102.12103v1
- Date: Wed, 24 Feb 2021 07:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:24:35.444614
- Title: FIXAR: A Fixed-Point Deep Reinforcement Learning Platform with
Quantization-Aware Training and Adaptive Parallelism
- Title(参考訳): FIXAR: 量子化学習と適応並列性を備えた固定点深層強化学習プラットフォーム
- Authors: Je Yang, Seongmin Hong, Joo-Young Kim
- Abstract要約: FIXARはSW/HWの共同設計アプローチを用いて、初めて固定点データ型と算術単位を使用する。
量子アウェアトレーニング(QAT)は、アクティベーションの範囲に基づいてデータ精度を低減し、報酬の劣化を最小限に抑えるために再トレーニングを実行する。
FIXARはXilinx U50と25293.3のトレーニングスループット(IPS)と2638.0のIPS/W加速効率で実装された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present a deep reinforcement learning platform named FIXAR
which employs fixed-point data types and arithmetic units for the first time
using a SW/HW co-design approach. Starting from 32-bit fixed-point data,
Quantization-Aware Training (QAT) reduces its data precision based on the range
of activations and performs retraining to minimize the reward degradation.
FIXAR proposes the adaptive array processing core composed of configurable
processing elements to support both intra-layer parallelism and intra-batch
parallelism for high-throughput inference and training. Finally, FIXAR was
implemented on Xilinx U50 and achieves 25293.3 inferences per second (IPS)
training throughput and 2638.0 IPS/W accelerator efficiency, which is 2.7 times
faster and 15.4 times more energy efficient than those of the CPU-GPU platform
without any accuracy degradation.
- Abstract(参考訳): 本稿では,固定点データ型と演算ユニットを,sw/hw共同設計手法を用いて初めて使用する,fixarと呼ばれる深層強化学習プラットフォームを提案する。
32ビットの固定点データから始めると、Quantization-Aware Training (QAT)はアクティベーションの範囲に基づいてデータ精度を削減し、報酬の劣化を最小限に抑えるために再トレーニングを行う。
fixarは、高スループット推論とトレーニングのための層内並列性とバッチ内並列性の両方をサポートする構成可能な処理要素で構成される適応配列処理コアを提案する。
最後に、FIXARはXilinx U50で実装され、25293.3秒(IPS)のトレーニングスループットと2638.0のIPS/Wアクセラレータ効率を達成した。
関連論文リスト
- SimpleFSDP: Simpler Fully Sharded Data Parallel with torch.compile [7.544642148576768]
SimpleFSDPは、PyTorchネイティブコンパイラベースのFully Sharded Data Parallel (FSDP)フレームワークである。
メンテナンスと計算性のためのシンプルな実装を持ち、完全なコンポコミュニケーショングラフトレースを可能にし、コンパイラのバックエンド最適化によるパフォーマンス向上を実現している。
また、効率的な計算通信オーバーラップのために、TorchInductorバックエンドでバケットと並べ替えを行うIRノードも備えている。
論文 参考訳(メタデータ) (2024-11-01T00:43:54Z) - COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。
COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。
COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文 参考訳(メタデータ) (2024-10-25T05:59:30Z) - Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。
本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。
提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-11T02:59:11Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning
Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。
本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。
提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-04-25T10:00:00Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo
Matching on FPGA Platform [21.435663827158564]
FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。
当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
論文 参考訳(メタデータ) (2021-04-11T21:22:54Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Multi-Precision Policy Enforced Training (MuPPET): A precision-switching
strategy for quantised fixed-point training of CNNs [13.83645579871775]
大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされる。
この研究は、複数の精度を利用するマルチレベルアプローチを採用することで、定量化トレーニングの境界を押し上げる。
MuPPETは、トレーニング時のスピードアップを最大1.84$times$、ネットワーク全体の平均スピードアップを1.58$times$とすることで、通常の完全精度トレーニングと同じ精度を達成する。
論文 参考訳(メタデータ) (2020-06-16T10:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。