論文の概要: Lightweight Protection for Privacy in Offloaded Speech Understanding
- arxiv url: http://arxiv.org/abs/2401.11983v1
- Date: Mon, 22 Jan 2024 14:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 08:27:10.853951
- Title: Lightweight Protection for Privacy in Offloaded Speech Understanding
- Title(参考訳): オフロード音声理解におけるプライバシー保護
- Authors: Dongqi Cai,
- Abstract要約: クラウドベースの音声認識システムはプライバシーのリスクを引き起こす。
アンタングルメントベースのエンコーダは、かなりのメモリと計算資源を必要とする。
このような機器に最適化された新しいシステム XXX を導入する。
- 参考スコア(独自算出の注目度): 1.6317061277457001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is a common input method for mobile embedded devices, but cloud-based speech recognition systems pose privacy risks. Disentanglement-based encoders, designed to safeguard user privacy by filtering sensitive information from speech signals, unfortunately require substantial memory and computational resources, which limits their use in less powerful devices. To overcome this, we introduce a novel system, XXX, optimized for such devices. XXX is built on the insight that speech understanding primarily relies on understanding the entire utterance's long-term dependencies, while privacy concerns are often linked to short-term details. Therefore, XXX focuses on selectively masking these short-term elements, preserving the quality of long-term speech understanding. The core of XXX is an innovative differential mask generator, grounded in interpretable learning, which fine-tunes the masking process. We tested XXX on the STM32H7 microcontroller, assessing its performance in various potential attack scenarios. The results show that XXX maintains speech understanding accuracy and privacy at levels comparable to existing encoders, but with a significant improvement in efficiency, achieving up to 53.3$\times$ faster processing and a 134.1$\times$ smaller memory footprint.
- Abstract(参考訳): 音声は組み込み機器の一般的な入力方式であるが、クラウドベースの音声認識システムはプライバシー上のリスクをもたらす。
ディアンタングメントベースのエンコーダは、音声信号から機密情報をフィルタリングすることでユーザのプライバシを保護するように設計されている。
そこで我々は,このようなデバイスに最適化された新しいシステム XXX を提案する。
XXXは、音声理解は主に発話の長期的な依存関係全体を理解することに依存しているという洞察に基づいて構築されている。
そのため、XXXはこれらの短期的要素を選択的にマスキングすることに集中し、長期的な音声理解の質を維持する。
XXXのコアは、解釈可能な学習に基礎を置き、マスク処理を微調整する革新的な微分マスク生成器である。
我々は、STM32H7マイクロコントローラ上でXXXを試験し、その性能を様々な攻撃シナリオで評価した。
その結果、XXXは既存のエンコーダに匹敵するレベルの音声認識精度とプライバシーを維持しているが、効率を大幅に改善し、53.3$\times$高速処理と134.1$\times$より小さなメモリフットプリントを実現している。
関連論文リスト
- Anonymizing Speech: Evaluating and Designing Speaker Anonymization
Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。
本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-05T16:14:17Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:12:42Z) - SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。
自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。
本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T02:56:40Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Paralinguistic Privacy Protection at the Edge [5.349852254138085]
EDGYは高次元音声データを変換・フィルタリングする表現学習フレームワークで,クラウドへのオフロードに先立ってエッジの感度特性を識別・保持する。
その結果, EDGYは数ミリ秒で動作し, ABXスコアは0.2%向上し, 生音声信号から言語表現を学習する際のペナルティは最小限に抑えられた。
論文 参考訳(メタデータ) (2020-11-04T14:11:35Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z) - InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。
我々はこの問題を新しい画像難読化フレームワークで解決する。
提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文 参考訳(メタデータ) (2020-05-20T19:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。