論文の概要: Sotto Voce: Federated Speech Recognition with Differential Privacy
Guarantees
- arxiv url: http://arxiv.org/abs/2207.07816v1
- Date: Sat, 16 Jul 2022 02:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:30:49.015873
- Title: Sotto Voce: Federated Speech Recognition with Differential Privacy
Guarantees
- Title(参考訳): Sotto Voce: 差分プライバシー保証によるフェデレーション音声認識
- Authors: Michael Shoemate and Kevin Jett and Ethan Cowan and Sean Colbath and
James Honaker and Prasanna Muthukumar
- Abstract要約: 音声データは収集するのに高価で、情報源に非常に敏感です。
組織が独立して自身の使用のために小さなデータセットを収集している場合が多いが、マシンラーニングの要求に対してパフォーマンスが低い場合も少なくない。
しかし、明快なデータ共有は、知的財産の喪失とデータセットに存在する個人のプライバシーの喪失という点で、非常に危険なリスクを伴っている。
- 参考スコア(独自算出の注目度): 0.761963751158349
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech data is expensive to collect, and incredibly sensitive to its sources.
It is often the case that organizations independently collect small datasets
for their own use, but often these are not performant for the demands of
machine learning. Organizations could pool these datasets together and jointly
build a strong ASR system; sharing data in the clear, however, comes with
tremendous risk, in terms of intellectual property loss as well as loss of
privacy of the individuals who exist in the dataset. In this paper, we offer a
potential solution for learning an ML model across multiple organizations where
we can provide mathematical guarantees limiting privacy loss. We use a
Federated Learning approach built on a strong foundation of Differential
Privacy techniques. We apply these to a senone classification prototype and
demonstrate that the model improves with the addition of private data while
still respecting privacy.
- Abstract(参考訳): 音声データは収集するのに高価で、情報源に非常に敏感です。
組織が独自の目的で小さなデータセットを独自に収集するケースが多いが、機械学習の要求に対してパフォーマンスが低い場合が多い。
組織はこれらのデータセットをプールして、強力なasrシステムを構築することができる。しかし、明確なデータを共有することは、知的所有権の喪失と、データセットに存在する個人のプライバシーの喪失という大きなリスクをもたらす。
本稿では,プライバシ損失を抑える数学的保証を提供するため,複数の組織でMLモデルを学習するための潜在的なソリューションを提供する。
差別化プライバシ技術の強力な基盤の上に構築されたフェデレートラーニングアプローチを使用します。
これらをsenone分類プロトタイプに適用し,プライバシを尊重しながらプライベートデータを追加することで,モデルが改善されることを示す。
関連論文リスト
- FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。
我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文 参考訳(メタデータ) (2024-10-30T02:41:26Z) - Federated Transfer Learning with Differential Privacy [21.50525027559563]
我々は、信頼された中央サーバを仮定することなく、各データセットに対するプライバシー保証を提供する、テキストフェデレーションによる差分プライバシーの概念を定式化する。
フェデレートされた差分プライバシは、確立されたローカルと中央の差分プライバシモデルの間の中間プライバシモデルであることを示す。
論文 参考訳(メタデータ) (2024-03-17T21:04:48Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Group privacy for personalized federated learning [4.30484058393522]
フェデレーション・ラーニング(Federated Learning)は、コラボレーティブ・機械学習の一種で、参加するクライアントがデータをローカルに処理し、コラボレーティブ・モデルの更新のみを共有する。
我々は、$d$-privacyのキープロパティを利用するグループプライバシ保証を提供する方法を提案する。
論文 参考訳(メタデータ) (2022-06-07T15:43:45Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。