論文の概要: On the Implicit Relation Between Low-Rank Adaptation and Differential
Privacy
- arxiv url: http://arxiv.org/abs/2409.17538v1
- Date: Thu, 26 Sep 2024 04:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:06:47.804026
- Title: On the Implicit Relation Between Low-Rank Adaptation and Differential
Privacy
- Title(参考訳): 低ランク適応と差分の関係について
プライバシー
- Authors: Saber Malekmohammadi, Golnoosh Farnadi
- Abstract要約: 言語モデルの低ランクタスク適応(LoRAやFLoRAなど)が提案されている。
我々は、低ランク適応が微調整データのプライバシーを暗黙的に提供することを示した。
- 参考スコア(独自算出の注目度): 6.331019775653316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant approach in natural language processing involves large-scale
pre-training on general domain data followed by adaptation to specific tasks or
domains. As models grow in size, full fine-tuning all parameters becomes
increasingly impractical. To address this, some methods for low-rank task
adaptation of language models have been proposed, e.g. LoRA and FLoRA. These
methods keep the pre-trained model weights fixed and incorporate trainable
low-rank decomposition matrices into some layers of the transformer
architecture, called adapters. This approach significantly reduces the number
of trainable parameters required for downstream tasks compared to full
fine-tuning all parameters. In this work, we look at low-rank adaptation from
the lens of data privacy. We show theoretically that the low-rank adaptation
used in LoRA and FLoRA is equivalent to injecting some random noise into the
batch gradients w.r.t the adapter parameters coming from their full
fine-tuning, and we quantify the variance of the injected noise. By
establishing a Berry-Esseen type bound on the total variation distance between
the noise distribution and a Gaussian distribution with the same variance, we
show that the dynamics of LoRA and FLoRA are very close to differentially
private full fine-tuning the adapters, which suggests that low-rank adaptation
implicitly provides privacy w.r.t the fine-tuning data. Finally, using
Johnson-Lindenstrauss lemma, we show that when augmented with gradient
clipping, low-rank adaptation is almost equivalent to differentially private
full fine-tuning adapters with a fixed noise scale.
- Abstract(参考訳): 自然言語処理における重要なアプローチは、一般的なドメインデータに対する大規模な事前学習と、特定のタスクやドメインへの適応である。
モデルのサイズが大きくなるにつれて、完全な微調整のパラメータはますます実用的ではない。
これを解決するために、言語モデルの低ランクタスク適応のためのいくつかの手法、例えばLoRAとFLoRAが提案されている。
これらの方法は、事前訓練されたモデルの重みを固定し、トレーニング可能な低ランク分解行列を、アダプタと呼ばれるトランスアーキテクチャのいくつかの層に組み込む。
このアプローチは、ダウンストリームタスクに必要なトレーニング可能なパラメータの数を大幅に削減する。
本研究では,データプライバシのレンズによる低ランク適応について検討する。
理論的には、LoRAとFLoRAで使用される低ランク適応は、バッチ勾配にランダムノイズを注入することと同値である。
雑音分布とガウス分布の間の全変動距離を同じ分散で制限したベリー・エッシー型を定式化することにより、LoRAとFLoRAのダイナミクスは、差分的にプライベートなフルチューニングアダプタに非常に近いことを示し、低ランク適応が微調整データに対して暗黙的にプライバシーw.r.を提供することを示す。
最後に、Johnson-Lindenstrauss lemmaを用いて、勾配クリッピングで拡張した場合、低ランク適応は固定ノイズスケールの差分プライベートフルチューニングアダプタとほぼ等価であることを示す。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Dynamic Low-Rank Instance Adaptation for Universal Neural Image
Compression [33.92792778925365]
ドメイン外のデータセットで観測される速度歪みの減少に対処する低ランク適応手法を提案する。
提案手法は,多様な画像データセットにまたがる普遍性を示す。
論文 参考訳(メタデータ) (2023-08-15T12:17:46Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Adaptive Noisy Data Augmentation for Regularized Estimation and
Inference in Generalized Linear Models [15.817569026827451]
一般化線形モデル(GLM)の推定と推定を規則化するAdaPtive Noise Augmentation (PANDA) 手法を提案する。
シミュレーションおよび実生活データにおいて,同一タイプの正則化器の既存手法に対して,PANDAが優れているか類似した性能を示す。
論文 参考訳(メタデータ) (2022-04-18T22:02:37Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。