論文の概要: On the Implicit Relation Between Low-Rank Adaptation and Differential
Privacy
- arxiv url: http://arxiv.org/abs/2409.17538v1
- Date: Thu, 26 Sep 2024 04:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:06:47.804026
- Title: On the Implicit Relation Between Low-Rank Adaptation and Differential
Privacy
- Title(参考訳): 低ランク適応と差分の関係について
プライバシー
- Authors: Saber Malekmohammadi, Golnoosh Farnadi
- Abstract要約: 言語モデルの低ランクタスク適応(LoRAやFLoRAなど)が提案されている。
我々は、低ランク適応が微調整データのプライバシーを暗黙的に提供することを示した。
- 参考スコア(独自算出の注目度): 6.331019775653316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant approach in natural language processing involves large-scale
pre-training on general domain data followed by adaptation to specific tasks or
domains. As models grow in size, full fine-tuning all parameters becomes
increasingly impractical. To address this, some methods for low-rank task
adaptation of language models have been proposed, e.g. LoRA and FLoRA. These
methods keep the pre-trained model weights fixed and incorporate trainable
low-rank decomposition matrices into some layers of the transformer
architecture, called adapters. This approach significantly reduces the number
of trainable parameters required for downstream tasks compared to full
fine-tuning all parameters. In this work, we look at low-rank adaptation from
the lens of data privacy. We show theoretically that the low-rank adaptation
used in LoRA and FLoRA is equivalent to injecting some random noise into the
batch gradients w.r.t the adapter parameters coming from their full
fine-tuning, and we quantify the variance of the injected noise. By
establishing a Berry-Esseen type bound on the total variation distance between
the noise distribution and a Gaussian distribution with the same variance, we
show that the dynamics of LoRA and FLoRA are very close to differentially
private full fine-tuning the adapters, which suggests that low-rank adaptation
implicitly provides privacy w.r.t the fine-tuning data. Finally, using
Johnson-Lindenstrauss lemma, we show that when augmented with gradient
clipping, low-rank adaptation is almost equivalent to differentially private
full fine-tuning adapters with a fixed noise scale.
- Abstract(参考訳): 自然言語処理における重要なアプローチは、一般的なドメインデータに対する大規模な事前学習と、特定のタスクやドメインへの適応である。
モデルのサイズが大きくなるにつれて、完全な微調整のパラメータはますます実用的ではない。
これを解決するために、言語モデルの低ランクタスク適応のためのいくつかの手法、例えばLoRAとFLoRAが提案されている。
これらの方法は、事前訓練されたモデルの重みを固定し、トレーニング可能な低ランク分解行列を、アダプタと呼ばれるトランスアーキテクチャのいくつかの層に組み込む。
このアプローチは、ダウンストリームタスクに必要なトレーニング可能なパラメータの数を大幅に削減する。
本研究では,データプライバシのレンズによる低ランク適応について検討する。
理論的には、LoRAとFLoRAで使用される低ランク適応は、バッチ勾配にランダムノイズを注入することと同値である。
雑音分布とガウス分布の間の全変動距離を同じ分散で制限したベリー・エッシー型を定式化することにより、LoRAとFLoRAのダイナミクスは、差分的にプライベートなフルチューニングアダプタに非常に近いことを示し、低ランク適応が微調整データに対して暗黙的にプライバシーw.r.を提供することを示す。
最後に、Johnson-Lindenstrauss lemmaを用いて、勾配クリッピングで拡張した場合、低ランク適応は固定ノイズスケールの差分プライベートフルチューニングアダプタとほぼ等価であることを示す。
関連論文リスト
- ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - Adaptive Differential Privacy in Federated Learning: A Priority-Based
Approach [0.0]
フェデレートラーニング(FL)は、ローカルデータセットに直接アクセスせずにグローバルモデルを開発する。
DPはパラメータに一定のノイズを加えることで、プライバシーを保証するフレームワークを提供する。
本稿では,特徴量の相対的重要度に基づいて入射雑音の値を決定するFLの適応雑音付加法を提案する。
論文 参考訳(メタデータ) (2024-01-04T03:01:15Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning [112.97430455461097]
本稿では,各トランスフォーマー層に導入される適応モジュールの混合を調整し,PLMの重みの大半を凍結させながら,汎用PEFT法を提案する。
PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-31T16:23:36Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Adaptive Noisy Data Augmentation for Regularized Estimation and
Inference in Generalized Linear Models [15.817569026827451]
一般化線形モデル(GLM)の推定と推定を規則化するAdaPtive Noise Augmentation (PANDA) 手法を提案する。
シミュレーションおよび実生活データにおいて,同一タイプの正則化器の既存手法に対して,PANDAが優れているか類似した性能を示す。
論文 参考訳(メタデータ) (2022-04-18T22:02:37Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z) - Preventing Posterior Collapse Induced by Oversmoothing in Gaussian VAE [7.845959449872641]
分散パラメータを適応させることでモデルの平滑性を制御するAR-ELBOを提案する。
さらに、分散パラメータの代替パラメータ化によりVAEを拡張し、非均一または条件付きデータ分散に対処する。
AR-ELBOで訓練されたVAE拡張は、MNISTおよびCelebAデータセットから生成された画像に対するFr'echet受信距離(FID)を改善した。
論文 参考訳(メタデータ) (2021-02-17T10:00:49Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。