論文の概要: Paralinguistic Privacy Protection at the Edge
- arxiv url: http://arxiv.org/abs/2011.02930v2
- Date: Sat, 29 May 2021 20:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:15:37.772146
- Title: Paralinguistic Privacy Protection at the Edge
- Title(参考訳): エッジにおけるパラ言語的プライバシー保護
- Authors: Ranya Aloufi, Hamed Haddadi, David Boyle
- Abstract要約: EDGYは高次元音声データを変換・フィルタリングする表現学習フレームワークで,クラウドへのオフロードに先立ってエッジの感度特性を識別・保持する。
その結果, EDGYは数ミリ秒で動作し, ABXスコアは0.2%向上し, 生音声信号から言語表現を学習する際のペナルティは最小限に抑えられた。
- 参考スコア(独自算出の注目度): 5.349852254138085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice user interfaces and digital assistants are rapidly entering our lives
and becoming singular touch points spanning our devices. These always-on
services capture and transmit our audio data to powerful cloud services for
further processing and subsequent actions. Our voices and raw audio signals
collected through these devices contain a host of sensitive paralinguistic
information that is transmitted to service providers regardless of deliberate
or false triggers. As our emotional patterns and sensitive attributes like our
identity, gender, mental well-being, are easily inferred using deep acoustic
models, we encounter a new generation of privacy risks by using these services.
One approach to mitigate the risk of paralinguistic-based privacy breaches is
to exploit a combination of cloud-based processing with privacy-preserving,
on-device paralinguistic information learning and filtering before transmitting
voice data. In this paper we introduce EDGY, a configurable, lightweight,
disentangled representation learning framework that transforms and filters
high-dimensional voice data to identify and contain sensitive attributes at the
edge prior to offloading to the cloud. We evaluate EDGY's on-device performance
and explore optimization techniques, including model quantization and knowledge
distillation, to enable private, accurate and efficient representation learning
on resource-constrained devices. Our results show that EDGY runs in tens of
milliseconds with 0.2% relative improvement in ABX score or minimal performance
penalties in learning linguistic representations from raw voice signals, using
a CPU and a single-core ARM processor without specialized hardware.
- Abstract(参考訳): 音声ユーザーインターフェースとデジタルアシスタントは急速に私たちの生活に入り、デバイスにまたがる特異なタッチポイントになりつつある。
これらの常時オンのサービスは、音声データを強力なクラウドサービスにキャプチャして送信し、さらなる処理とその後のアクションを行う。
これらのデバイスから収集した音声と生の音声信号には、意図的あるいは誤ったトリガーに関係なくサービスプロバイダに送信される、センシティブなパラ言語情報のホストが含まれています。
私たちの感情パターンや、アイデンティティ、性別、精神的幸福といったセンシティブな属性は、ディープアコースティックモデルを使って容易に推測できるため、これらのサービスを使用することで、新たな世代のプライバシーリスクに直面します。
パラ言語ベースのプライバシー侵害のリスクを軽減する1つのアプローチは、クラウドベースの処理とプライバシ保存、オンデバイスパラ言語情報学習と、音声データを送信する前にフィルタリングを組み合わせることである。
本稿では,高次元音声データを変換・フィルタリングし,クラウドへのオフロード前にエッジの感度特性を識別・保持する,構成可能で軽量な非交叉型表現学習フレームワークEDGYを紹介する。
EDGYのオンデバイス性能を評価し、モデル量子化や知識蒸留など最適化手法を探求し、資源制約のあるデバイス上でのプライベートで正確かつ効率的な表現学習を可能にする。
以上の結果から, EDGYは数ミリ秒で動作し, ABXスコアは0.2%向上し, 生音声信号から言語表現を学習する際の最小性能のペナルティは, 専用ハードウェアを使わずにCPUとシングルコアARMプロセッサを用いて0。
関連論文リスト
- Collaborative Inference over Wireless Channels with Feature Differential Privacy [57.68286389879283]
複数の無線エッジデバイス間の協調推論は、人工知能(AI)アプリケーションを大幅に強化する可能性がある。
抽出された特徴を抽出することは、プロセス中に機密性の高い個人情報が暴露されるため、重大なプライバシーリスクをもたらす。
本稿では,ネットワーク内の各エッジデバイスが抽出された機能のプライバシを保護し,それらを中央サーバに送信して推論を行う,新たなプライバシ保存協調推論機構を提案する。
論文 参考訳(メタデータ) (2024-10-25T18:11:02Z) - Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。
モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。
本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:10:46Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Task-Oriented Communication for Edge Video Analytics [11.03999024164301]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。
複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。
提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-11-25T12:09:12Z) - Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning [7.387631194438338]
DARE-GPは、音声の書き起こし関連部分を保存しながら、ユーザの感情情報を隠蔽する付加的なノイズを生成するソリューションである。
DARE-GPは、既存の作品と異なり、a) 音声の書き起こしを保護しながら、(b) 未確認のブラックボックスのSER分類器に対して、(b) 音の聞こえない発話をリアルタイムに保護し、(c) 声の書き起こしを現実的に音響的に保護する。
論文 参考訳(メタデータ) (2022-11-17T00:25:05Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Configurable Privacy-Preserving Automatic Speech Recognition [5.730142956540673]
音声支援システムにおけるモジュラ自動音声認識がプライバシーを向上するかどうかを検討する。
プライバシの懸念と,システムの各ステージに様々な最先端技術を適用する効果を示す。
これはASRを組み込んだプライバシー保護アプリケーションに新たな機会をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2021-04-01T21:03:49Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。