論文の概要: Low-Rank Adaptation Secretly Imitates Differentially Private SGD
- arxiv url: http://arxiv.org/abs/2409.17538v6
- Date: Tue, 03 Jun 2025 16:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:31.778487
- Title: Low-Rank Adaptation Secretly Imitates Differentially Private SGD
- Title(参考訳): 低ランク適応は秘密裏に個人用SGDを放出する
- Authors: Saber Malekmohammadi, Golnoosh Farnadi,
- Abstract要約: 理論的には、低ランク適応はノイズの多いバッチ勾配を持つ微調整アダプタと等価である。
また、入射雑音の分散を適応ランクの減少関数として定量化する。
低ランク適応は、微調整データに対して、メンバシップ推論攻撃に対して堅牢性を提供する。
- 参考スコア(独自算出の注目度): 5.359060261460183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As pre-trained language models grow in size, full fine-tuning their parameters on task adaptation data becomes increasingly impractical. To address this challenge, some methods for low-rank adaptation of language models have been proposed, e.g. LoRA, which incorporates trainable low-rank decomposition matrices into only some parameters of the pre-trained model, called adapters. This approach significantly reduces the number of trainable parameters compared to fine-tuning all parameters or adapters. In this work, we look at low-rank adaptation method from the lens of data privacy. We show theoretically that the low-rank adaptation used in LoRA is equivalent to fine-tuning adapters with noisy batch gradients - just like what DPSGD algorithm does. We also quantify the variance of the injected noise as a decreasing function of adaptation rank. By establishing a Berry-Esseen type bound on the total variation distance between the injected noise distribution and a Gaussian noise distribution with the same variance, we show that the dynamics of low-rank adaptation is very close to when DPSGD is performed w.r.t the adapters. Following our theoretical findings and approved by our experimental results, we show that low-rank adaptation provides robustness to membership inference attacks w.r.t the fine-tuning data.
- Abstract(参考訳): 事前訓練された言語モデルのサイズが大きくなるにつれて、タスク適応データに対するパラメータの完全な微調整はますます現実的になる。
この課題に対処するために、訓練可能な低ランク分解行列を事前訓練されたモデルのパラメータのみに組み込んだアダプタと呼ばれる言語モデルの低ランク適応法が提案されている。
このアプローチは、すべてのパラメータやアダプタを微調整するのに比べて、トレーニング可能なパラメータの数を大幅に削減する。
本研究では,データプライバシのレンズによる低ランク適応手法について検討する。
理論的には、LoRAで使用される低ランク適応は、DPSGDアルゴリズムが行うように、ノイズの多いバッチ勾配を持つ微調整アダプタと等価であることを示す。
また、入射雑音の分散を適応ランクの減少関数として定量化する。
誘導雑音分布とガウス雑音分布の総変動距離を同じ分散で制限したベリー・エッシー型を定式化することにより、低ランク適応のダイナミクスがアダプタでDPSGDを行うときと非常に近いことを示す。
理論的な結果と実験結果により承認された結果から,低ランク適応は,微調整データではなく,メンバシップ推論攻撃に対する堅牢性を示すことが示された。
関連論文リスト
- FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。
低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。
本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文 参考訳(メタデータ) (2024-12-17T14:33:05Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - DEeR: Deviation Eliminating and Noise Regulating for Privacy-preserving Federated Low-rank Adaptation [29.30782543513243]
我々は、UnderlineDeviation UnderlineEliminatingとNoisunderlinee Underline Regulating (DEeR)と呼ばれるプライバシー保護フェデレーションファインタニングフレームワークを提案する。
DeeRは、最先端のアプローチと比較して、公開医療データセットのパフォーマンスが向上していることを示す。
論文 参考訳(メタデータ) (2024-10-16T18:11:52Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Dynamic Low-Rank Instance Adaptation for Universal Neural Image
Compression [33.92792778925365]
ドメイン外のデータセットで観測される速度歪みの減少に対処する低ランク適応手法を提案する。
提案手法は,多様な画像データセットにまたがる普遍性を示す。
論文 参考訳(メタデータ) (2023-08-15T12:17:46Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Adaptive Noisy Data Augmentation for Regularized Estimation and
Inference in Generalized Linear Models [15.817569026827451]
一般化線形モデル(GLM)の推定と推定を規則化するAdaPtive Noise Augmentation (PANDA) 手法を提案する。
シミュレーションおよび実生活データにおいて,同一タイプの正則化器の既存手法に対して,PANDAが優れているか類似した性能を示す。
論文 参考訳(メタデータ) (2022-04-18T22:02:37Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。