Fugu-MT 論文翻訳(概要): On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy

論文の概要: On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy

arxiv url: http://arxiv.org/abs/2409.17538v3
Date: Tue, 19 Nov 2024 20:10:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.095044
Title: On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy
Title（参考訳）: 低ランク適応と微分プライバシーの関係について
Authors: Saber Malekmohammadi, Golnoosh Farnadi,
Abstract要約: 言語モデルの低ランクタスク適応(LoRAやFLoRAなど)が提案されている。データプライバシのレンズからの低ランク適応に注目します。他の既存の微調整アルゴリズムとは異なり、低ランク適応は暗黙的に微調整データのプライバシーを提供する。
参考スコア（独自算出の注目度）: 5.359060261460183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A significant approach in natural language processing involves large-scale pre-training models on general domain data followed by their adaptation to specific tasks or domains. As models grow in size, full fine-tuning all of their parameters becomes increasingly impractical. To address this, some methods for low-rank task adaptation of language models have been proposed, e.g., LoRA and FLoRA. These methods keep the pre-trained model weights fixed and incorporate trainable low-rank decomposition matrices into some layers of the transformer architecture, called adapters. This approach significantly reduces the number of trainable parameters required for downstream tasks compared to full fine-tuning all parameters. In this work, we look at low-rank adaptation from the lens of data privacy. We show theoretically that the low-rank adaptation used in LoRA and FLoRA is equivalent to injecting some random noise into the batch gradients w.r.t the adapter parameters, and we quantify the variance of the injected noise. By establishing a Berry-Esseen type bound on the total variation distance between distribution of the injected noise and a Gaussian distribution with the same variance, we show that the dynamics of low-rank adaptation is close to that of differentially private fine-tuning of the adapters. Finally, using Johnson-Lindenstrauss lemma, we show that when augmented with gradient scaling, low-rank adaptation is very close to performing DPSGD algorithm with a fixed noise scale to fine-tune the adapters. These theoretical findings suggest that unlike other existing fine-tuning algorithms, low-rank adaptation provides privacy w.r.t the fine-tuning data implicitly.
Abstract（参考訳）: 自然言語処理における重要なアプローチは、一般的なドメインデータに対する大規模な事前学習モデルと、特定のタスクやドメインへの適応である。モデルのサイズが大きくなるにつれて、パラメータの完全な微調整はますます非現実的になる。これを解決するために、言語モデルの低ランクタスク適応のためのいくつかの手法、例えばLoRAやFLoRAが提案されている。これらの方法は、事前訓練されたモデルの重みを固定し、トレーニング可能な低ランク分解行列を、アダプタと呼ばれるトランスアーキテクチャのいくつかの層に組み込む。このアプローチは、ダウンストリームタスクに必要なトレーニング可能なパラメータの数を大幅に削減する。本研究では,データプライバシのレンズによる低ランク適応について検討する。理論的には、LoRAとFLoRAで使用される低ランク適応は、適応パラメータのバッチ勾配にランダムノイズを注入することと等価であることを示し、インジェクトされたノイズの分散を定量化する。誘導雑音の分布とガウス分布の合計変動距離を同じ分散で制限したベリー・エッシー型を定式化することにより、低ランク適応のダイナミクスがアダプタの微分プライベート微調整のダイナミクスに近いことを示す。最後に、Johnson-Lindenstrauss lemmaを用いて、勾配スケーリングで拡張された場合、低ランク適応は、アダプタを微調整するために固定ノイズスケールのDPSGDアルゴリズムの実行に非常に近いことを示す。これらの理論的な結果は、既存の微調整アルゴリズムとは異なり、低ランク適応は暗黙的に微調整データのプライバシーを提供することを示している。

関連論文リスト

Improving Robustness of Foundation Models in Domain Adaptation with Soup-Adapters [0.0]
複数の独立したアダプタをトレーニングし、その出力を平均化することにより、新しいモデルの性能が向上し、個々のアダプタと比較して分散シフトに対して堅牢であることを示す。これはまた、DINOv2向けのCLIPアダプタスタイルのテクニックを探求し、この設定でCLIPと直接比較する最初の研究である。
論文参考訳（メタデータ） (2025-07-08T09:26:10Z)
Transformed Low-rank Adaptation via Tensor Decomposition and Its Applications to Text-to-image Models [32.68721299475496]
Low-Rank Adaptation (LoRA)とその変種は、その有効性から大きな注目を集めている。本稿では,2種類の適応,すなわち変換と残留適応を組み合わせた新しいPEFT法を提案する。主観駆動・制御可能ジェネレーションにおける微調整安定拡散モデルの実験を行った。
論文参考訳（メタデータ） (2025-01-15T11:10:37Z)
FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文参考訳（メタデータ） (2024-12-17T14:33:05Z)
OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。しばしば最適化の課題を提起するが、収束性は低い。推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文参考訳（メタデータ） (2024-12-13T18:55:19Z)
Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
DEeR: Deviation Eliminating and Noise Regulating for Privacy-preserving Federated Low-rank Adaptation [29.30782543513243]
我々は、UnderlineDeviation UnderlineEliminatingとNoisunderlinee Underline Regulating (DEeR)と呼ばれるプライバシー保護フェデレーションファインタニングフレームワークを提案する。 DeeRは、最先端のアプローチと比較して、公開医療データセットのパフォーマンスが向上していることを示す。
論文参考訳（メタデータ） (2024-10-16T18:11:52Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文参考訳（メタデータ） (2024-08-06T16:39:42Z)
Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文参考訳（メタデータ） (2024-07-04T18:21:28Z)
Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。 Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文参考訳（メタデータ） (2024-06-11T15:01:20Z)
ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。 ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文参考訳（メタデータ） (2024-02-07T15:43:50Z)
Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-07T03:18:00Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文参考訳（メタデータ） (2023-10-10T01:04:15Z)
Dynamic Low-Rank Instance Adaptation for Universal Neural Image Compression [33.92792778925365]
ドメイン外のデータセットで観測される速度歪みの減少に対処する低ランク適応手法を提案する。提案手法は,多様な画像データセットにまたがる普遍性を示す。
論文参考訳（メタデータ） (2023-08-15T12:17:46Z)
Adaptive Self-supervision Algorithms for Physics-informed Neural Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文参考訳（メタデータ） (2022-07-08T18:17:06Z)
AdapterBias: Parameter-efficient Token-dependent Representation Shift for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文参考訳（メタデータ） (2022-04-30T16:49:41Z)
Adaptive Noisy Data Augmentation for Regularized Estimation and Inference in Generalized Linear Models [15.817569026827451]
一般化線形モデル(GLM)の推定と推定を規則化するAdaPtive Noise Augmentation (PANDA) 手法を提案する。シミュレーションおよび実生活データにおいて,同一タイプの正則化器の既存手法に対して,PANDAが優れているか類似した性能を示す。
論文参考訳（メタデータ） (2022-04-18T22:02:37Z)
Robust Optimal Transport with Applications in Generative Modeling and Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文参考訳（メタデータ） (2020-10-12T17:13:40Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。