論文の概要: Differentially Private Parameter-Efficient Fine-tuning for Large ASR Models
- arxiv url: http://arxiv.org/abs/2410.01948v1
- Date: Wed, 2 Oct 2024 18:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:54:27.576511
- Title: Differentially Private Parameter-Efficient Fine-tuning for Large ASR Models
- Title(参考訳): 大規模ASRモデルのための微分プライベートパラメータ効率の良い微調整法
- Authors: Hongbin Liu, Lun Wang, Om Thakkar, Abhradeep Thakurta, Arun Narayanan,
- Abstract要約: 大型のASRモデルは、機密情報を不注意に漏洩させ、差分プライバシー(DP)のような正式なプライバシー対策によって緩和することができる。
本研究は,ASRモデルにおいて,より少ない計算と性能コストでプライバシーリスクを軽減する手段として,DPパラメータ効率の微調整を提案する。
- 参考スコア(独自算出の注目度): 21.1164927055712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large ASR models can inadvertently leak sensitive information, which can be mitigated by formal privacy measures like differential privacy (DP). However, traditional DP training is computationally expensive, and can hurt model performance. Our study explores DP parameter-efficient fine-tuning as a way to mitigate privacy risks with smaller computation and performance costs for ASR models. Through extensive experimentation and progressive optimization, we achieve 4.6%/8.1% word error rate on LibriSpeech clean/other test-sets, setting a new performance benchmark while maintaining (10, 3.52e-6)-DP in fine-tuning a large ASR model with over 600M parameters.
- Abstract(参考訳): 大規模なASRモデルは、機密情報を不注意に漏洩させ、差分プライバシー(DP)のような正式なプライバシー対策によって緩和することができる。
しかし、従来のDPトレーニングは計算コストが高く、モデルの性能を損なう可能性がある。
本研究は,ASRモデルにおいて,より少ない計算と性能コストでプライバシーリスクを軽減する手段として,DPパラメータ効率の微調整を提案する。
広範囲な実験とプログレッシブ最適化により、LibriSpeechのクリーン/その他のテストセットで4.6%/8.1%のワードエラー率を実現し、600万以上のパラメータを持つ大規模ASRモデルの微調整において(10,352e-6)-DPを維持しながら、新しいパフォーマンスベンチマークを設定した。
関連論文リスト
- Efficient and Private: Memorisation under differentially private parameter-efficient fine-tuning in language models [2.3281513013731145]
特定のタスクのための微調整された大型言語モデル(LLM)は、不注意に記憶し、センシティブなトレーニングデータを漏洩する可能性があるため、プライバシのリスクをもたらす。
差分プライバシー(DP)は、これらのリスクを軽減するソリューションを提供するが、重大な計算とパフォーマンスのトレードオフをもたらす。
PEFT法は,パラメータを少なくし,プライバシリークを著しく低減しつつ,標準的な微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-11-24T13:17:36Z) - Training Large ASR Encoders with Differential Privacy [18.624449993983106]
大規模音声モデルのための自己教師付き学習(SSL)手法は、ASRにおいて非常に効果的であることが証明されている。
大規模な事前学習モデルの公開展開に関心があるため、意図しない記憶と、トレーニングデータからの機密データポイントの漏洩に対する懸念が高まっている。
本稿では,SOTA Conformer ベースのエンコーダに差分プライベート(DP)事前学習を適用し,微調整データを公開していると仮定した下流 ASR タスクにおいて,その性能について検討する。
論文 参考訳(メタデータ) (2024-09-21T00:01:49Z) - Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。
この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。
本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:18:04Z) - Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。
DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。
公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。
ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文 参考訳(メタデータ) (2024-02-28T23:26:27Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。