論文の概要: L3: Accelerator-Friendly Lossless Image Format for High-Resolution,
High-Throughput DNN Training
- arxiv url: http://arxiv.org/abs/2208.08711v1
- Date: Thu, 18 Aug 2022 08:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:39:47.920945
- Title: L3: Accelerator-Friendly Lossless Image Format for High-Resolution,
High-Throughput DNN Training
- Title(参考訳): L3:高分解能高速DNNトレーニングのためのアクセラレータフレンドリーなロスレス画像フォーマット
- Authors: Jonghyun Bae, Woohyeon Baek, Tae Jun Ham, Jae W. Lee
- Abstract要約: 高解像度でロスレスに符号化されたデータセットは、高い精度を必要とするアプリケーションでより人気がある。
我々は、高解像度で高スループットのディープニューラルネットワーク(DNN)トレーニングのための、カスタム軽量でロスレスな画像フォーマットであるL3を提案する。
L3はNVIDIA A100 GPU上のCityscapesデータセットのPNGよりも9.29倍高いデータ準備スループットを実現している。
- 参考スコア(独自算出の注目度): 3.9113852186157803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training process of deep neural networks (DNNs) is usually pipelined with
stages for data preparation on CPUs followed by gradient computation on
accelerators like GPUs. In an ideal pipeline, the end-to-end training
throughput is eventually limited by the throughput of the accelerator, not by
that of data preparation. In the past, the DNN training pipeline achieved a
near-optimal throughput by utilizing datasets encoded with a lightweight, lossy
image format like JPEG. However, as high-resolution, losslessly-encoded
datasets become more popular for applications requiring high accuracy, a
performance problem arises in the data preparation stage due to low-throughput
image decoding on the CPU. Thus, we propose L3, a custom lightweight, lossless
image format for high-resolution, high-throughput DNN training. The decoding
process of L3 is effectively parallelized on the accelerator, thus minimizing
CPU intervention for data preparation during DNN training. L3 achieves a 9.29x
higher data preparation throughput than PNG, the most popular lossless image
format, for the Cityscapes dataset on NVIDIA A100 GPU, which leads to 1.71x
higher end-to-end training throughput. Compared to JPEG and WebP, two popular
lossy image formats, L3 provides up to 1.77x and 2.87x higher end-to-end
training throughput for ImageNet, respectively, at equivalent metric
performance.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のトレーニングプロセスは通常、CPU上でのデータ準備のステージと、GPUのようなアクセラレータ上での勾配計算によってパイプラインされる。
理想的なパイプラインでは、エンドツーエンドのトレーニングスループットは最終的に、データ準備のスループットではなく、アクセラレータのスループットによって制限される。
これまでDNNトレーニングパイプラインは、JPEGのような軽量で損失の多いイメージフォーマットでエンコードされたデータセットを利用することで、ほぼ最適スループットを達成した。
しかし、高精度でロスレスに符号化されたデータセットが、高い精度を必要とするアプリケーションに普及するにつれて、CPU上の低スループット画像復号化によるデータ準備段階での性能問題が発生する。
そこで本稿では,高解像度で高スループットなDNNトレーニングを実現するために,L3を提案する。
L3の復号処理は、アクセラレータ上で効果的に並列化され、DNNトレーニング中のデータ準備のためのCPU介入を最小化する。
L3は、NVIDIA A100 GPU上のCityscapesデータセットにおいて、最も人気のあるロスレスイメージフォーマットであるPNGよりも9.29倍高いデータ準備スループットを実現している。
JPEGとWebPの2つの人気の損失画像フォーマットと比較して、L3はImageNetの最大1.77倍と2.87倍のエンドツーエンドのトレーニングスループットを同等のパフォーマンスで提供する。
関連論文リスト
- DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Taming Lookup Tables for Efficient Image Retouching [30.48643578900116]
我々は、畳み込みニューラルネットワーク(CNN)を使わずに、極めて効率的なエッジ推論にLUTを採用するICELUTを提案する。
ICELUTは最先端の性能と極めて低消費電力を実現している。
これにより、最初のLUTベースのイメージエンハンサーであるICELUTは、GPUでは0.4ms、CPUでは7msという前例のない速度に達し、CNNソリューションよりも少なくとも1桁高速になる。
論文 参考訳(メタデータ) (2024-03-28T08:49:35Z) - CNNs for JPEGs: A Study in Computational Cost [45.74830585715129]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2023-09-20T15:49:38Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation [7.539498729072623]
Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。
従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。
本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。
論文 参考訳(メタデータ) (2023-06-29T05:49:07Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Less is More: Accelerating Faster Neural Networks Straight from JPEG [1.9214041945441434]
JPEG圧縮データ処理のための畳み込みニューラルネットワークの高速化方法を示す。
学習戦略を活用し、DCT入力をフル活用し、計算の複雑さを低減します。
その結果、データ駆動方式で全てのdct入力を組み合わせる方法を学ぶことは、手で捨てるよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-04-01T01:21:24Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。