論文の概要: Zero redundancy distributed learning with differential privacy
- arxiv url: http://arxiv.org/abs/2311.11822v1
- Date: Mon, 20 Nov 2023 14:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 18:27:50.514199
- Title: Zero redundancy distributed learning with differential privacy
- Title(参考訳): 差分プライバシーを用いたゼロ冗長分散学習
- Authors: Zhiqi Bu, Justin Chiu, Ruixuan Liu, Sheng Zha, George Karypis
- Abstract要約: 我々は、訓練可能なDPモデルサイズをスケールアップする新しい体系的ソリューションDP-ZeROを開発した。
我々のDP-ZeROは任意のサイズでモデルを訓練する可能性があり、世界最大のDPモデルで評価されている。
- 参考スコア(独自算出の注目度): 26.89679585840689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning using large models have achieved great success in a wide range
of domains. However, training these models on billions of parameters is very
challenging in terms of the training speed, memory cost, and communication
efficiency, especially under the privacy-preserving regime with differential
privacy (DP). On the one hand, DP optimization has comparable efficiency to the
standard non-private optimization on a single GPU, but on multiple GPUs,
existing DP distributed learning (such as pipeline parallel) has suffered from
significantly worse efficiency. On the other hand, the Zero Redundancy
Optimizer (ZeRO) is a state-of-the-art solution to the standard distributed
learning, exhibiting excellent training efficiency on large models, but to work
compatibly with DP is technically complicated. In this work, we develop a new
systematic solution, DP-ZeRO, (I) to scale up the trainable DP model size, e.g.
to GPT-100B, (II) to obtain the same computation and communication efficiency
as the standard ZeRO, and (III) to enable mixed-precision DP training. Our
DP-ZeRO, like the standard ZeRO, has the potential to train models with
arbitrary size and is evaluated on the world's largest DP models in terms of
the number of trainable parameters.
- Abstract(参考訳): 大きなモデルを用いたディープラーニングは、幅広い領域で大きな成功を収めています。
しかしながら、これらのモデルを数十億のパラメータでトレーニングすることは、トレーニング速度、メモリコスト、通信効率、特に差分プライバシー(dp)を備えたプライバシー保護体制下では、非常に困難である。
一方、DP最適化は、単一のGPU上での標準の非プライベート最適化と同等の効率性を持つが、複数のGPUでは、既存のDP分散学習(パイプライン並列など)が大幅に効率が低下している。
一方、ZeRO(Zero Redundancy Optimizer)は、標準分散学習の最先端ソリューションであり、大規模モデルでは優れたトレーニング効率を示すが、DPと互換性のある作業は技術的に複雑である。
本研究では,GPT-100Bなどの訓練可能なDPモデルサイズをスケールアップするためのDP-ZeRO,(I)標準ZeROと同じ計算および通信効率を得るためのDP-ZeRO,(III)混合精度DPトレーニングを実現するための新たな体系的ソリューションを開発する。
我々のDP-ZeROは、標準ZeROと同様、任意のサイズでモデルを訓練する可能性があり、トレーニング可能なパラメータの数の観点から世界最大のDPモデルで評価される。
関連論文リスト
- Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Private Fine-tuning of Large Language Models with Zeroth-order Optimization [51.19403058739522]
差分的プライベート勾配降下(DP-SGD)により、モデルはプライバシ保護の方法でトレーニングできる。
DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - Sparsity-Preserving Differentially Private Training of Large Embedding
Models [67.29926605156788]
DP-SGDは、差分プライバシーと勾配降下を組み合わせたトレーニングアルゴリズムである。
DP-SGDをネーティブに埋め込みモデルに適用すると、勾配の間隔が破壊され、トレーニング効率が低下する。
我々は,大規模埋め込みモデルのプライベートトレーニングにおいて,勾配間隔を保ったDP-FESTとDP-AdaFESTの2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:59:51Z) - Equivariant Differentially Private Deep Learning: Why DP-SGD Needs
Sparser Models [7.49320945341034]
小型で効率的なアーキテクチャ設計は、計算要求がかなり少ない最先端のモデルよりも優れていることを示す。
私たちの結果は、パラメータを最適に活用する効率的なモデルアーキテクチャへの一歩です。
論文 参考訳(メタデータ) (2023-01-30T17:43:47Z) - DPIS: An Enhanced Mechanism for Differentially Private SGD with Importance Sampling [23.8561225168394]
ディファレンシャルプライバシ(DP)は、プライバシ保護の十分に受け入れられた標準となり、ディープニューラルネットワーク(DNN)は、機械学習において非常に成功した。
この目的のための古典的なメカニズムはDP-SGDであり、これは訓練に一般的に使用される勾配降下(SGD)の微分プライベートバージョンである。
DPISは,DP-SGDのコアのドロップイン代替として使用できる,微分プライベートなSGDトレーニングのための新しいメカニズムである。
論文 参考訳(メタデータ) (2022-10-18T07:03:14Z) - Differentially Private Bias-Term Fine-tuning of Foundation Models [36.55810474925956]
本研究では,大規模事前学習モデルにおける差分プライベート(DP)微調整の問題について検討する。
本稿では,DPアルゴリズムの最先端精度と標準BiTFiTの効率とを一致させるDP-BiTFiTを提案する。
幅広いタスクにおいて、DP-BiTFiTは230倍高速で、完全な微調整よりも28倍少ないメモリを使用する。
論文 参考訳(メタデータ) (2022-09-30T18:30:48Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。