Fugu-MT 論文翻訳(概要): Enabling Fast Differentially Private SGD via Just-in-Time Compilation and Vectorization

論文の概要: Enabling Fast Differentially Private SGD via Just-in-Time Compilation and Vectorization

arxiv url: http://arxiv.org/abs/2010.09063v2
Date: Tue, 26 Oct 2021 19:54:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 04:40:07.815896
Title: Enabling Fast Differentially Private SGD via Just-in-Time Compilation and Vectorization
Title（参考訳）: just-in-timeコンパイルとベクトル化による高速差分プライベートsgdの実現
Authors: Pranav Subramani, Nicholas Vadivelu, Gautam Kamath
Abstract要約: 差分プライベート機械学習における共通の問題点は、差分プライベートグラディエントDescent(DPSGD)の実行時に発生する重要なランタイムオーバーヘッドである。我々は、強力な言語プリミティブを利用することで、これらのオーバーヘッドを劇的に削減できることを示した。
参考スコア（独自算出の注目度）: 8.404254529115835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A common pain point in differentially private machine learning is the significant runtime overhead incurred when executing Differentially Private Stochastic Gradient Descent (DPSGD), which may be as large as two orders of magnitude. We thoroughly demonstrate that by exploiting powerful language primitives, including vectorization, just-in-time compilation, and static graph optimization, one can dramatically reduce these overheads, in many cases nearly matching the best non-private running times. These gains are realized in two frameworks: JAX and TensorFlow. JAX provides rich support for these primitives as core features of the language through the XLA compiler. We also rebuild core parts of TensorFlow Privacy, integrating features from TensorFlow 2 as well as XLA compilation, granting significant memory and runtime improvements over the current release version. These approaches allow us to achieve up to 50x speedups in comparison to the best alternatives. Our code is available at https://github.com/TheSalon/fast-dpsgd.
Abstract（参考訳）: 差分プライベート機械学習における共通の問題点は、差分プライベート確率勾配(DPSGD)の実行時に発生する重要なランタイムオーバーヘッドである。ベクトル化やジャスト・イン・タイムのコンパイル,静的グラフの最適化など,強力な言語プリミティブを活用することで,これらのオーバーヘッドを大幅に削減できることを示す。これらの利益は、JAXとTensorFlowの2つのフレームワークで実現されている。 JAXは、XLAコンパイラを通して、言語のコア機能としてこれらのプリミティブをリッチにサポートします。また、TensorFlow Privacyの中核部分の再構築、TensorFlow 2の機能の統合、XLAコンパイル、現在のリリースバージョンに対するメモリとランタイムの大幅な改善も行っています。これらのアプローチにより、最良の代替手段と比較して最大50倍のスピードアップを実現できます。私たちのコードはhttps://github.com/TheSalon/fast-dpsgd.comで利用可能です。

関連論文リスト

Fun with flags: How Compilers Break and Fix Constant-Time Code [0.0]
コンパイラの最適化が定数時間コードをどのように壊すかを分析する。キーとなる洞察は、パスの小さなセットが、ほとんどのリークの根元にあるということだ。ソースコードの変更やカスタムコンパイラを必要としない,オリジナルかつ実践的な緩和を提案する。
論文参考訳（メタデータ） (2025-07-08T15:52:17Z)
BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems [56.16884466478886]
BurTorchは、単一ノードワークステーション上でのディープラーニング(DL)トレーニングを最適化するために設計された、コンパクトな高性能フレームワークである。 BurTorchは最小限の設計を採用し、これらの状況下では、古典的なコンパイルされたプログラミング言語がDL研究において重要な役割を果たすことを証明している。
論文参考訳（メタデータ） (2025-03-18T00:52:12Z)
Keras Sig: Efficient Path Signature Computation on GPU in Keras 3 [0.0]
Keras Sigは、ディープラーニングアプリケーションのためのパスシグネチャを計算するために設計された高性能なピソニックライブラリである。 Keras 3で新たに構築された textitKeras Sig は PyTorch や JAX,GPU など,広く使用されているディープラーニングバックエンドとのシームレスな統合を活用している。
論文参考訳（メタデータ） (2025-01-14T22:00:01Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文参考訳（メタデータ） (2024-03-17T23:02:04Z)
Green AI: A Preliminary Empirical Study on Energy Consumption in DL Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文参考訳（メタデータ） (2024-02-21T09:18:44Z)
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文参考訳（メタデータ） (2023-11-16T18:58:43Z)
PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。 PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文参考訳（メタデータ） (2023-10-26T19:46:11Z)
CHERI Performance Enhancement for a Bytecode Interpreter [0.0]
我々は、ネイティブポインタ(一般に64ビット)と比較して、CHERI機能(128ビット)が大きいため、ある種類のソフトウェアが引き起こすランタイムオーバーヘッドを取り除くことができることを示す。最悪の場合のスローダウンは100倍(最適化前)から2倍(最適化後)まで大幅に改善される。
論文参考訳（メタデータ） (2023-08-09T17:12:23Z)
PowerFusion: A Tensor Compiler with Explicit Data Movement Description and Instruction-level Graph IR [10.059491353103526]
本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。 IntelliGenは計算とデータ移動の最適化の両方を考慮する。 NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
論文参考訳（メタデータ） (2023-07-11T03:17:40Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-09-18T14:33:49Z)
Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文参考訳（メタデータ） (2020-10-29T18:49:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。