論文の概要: Lightweight Protection for Privacy in Offloaded Speech Understanding
- arxiv url: http://arxiv.org/abs/2401.11983v1
- Date: Mon, 22 Jan 2024 14:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 08:27:10.853951
- Title: Lightweight Protection for Privacy in Offloaded Speech Understanding
- Title(参考訳): オフロード音声理解におけるプライバシー保護
- Authors: Dongqi Cai,
- Abstract要約: クラウドベースの音声認識システムはプライバシーのリスクを引き起こす。
アンタングルメントベースのエンコーダは、かなりのメモリと計算資源を必要とする。
このような機器に最適化された新しいシステム XXX を導入する。
- 参考スコア(独自算出の注目度): 1.6317061277457001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is a common input method for mobile embedded devices, but cloud-based speech recognition systems pose privacy risks. Disentanglement-based encoders, designed to safeguard user privacy by filtering sensitive information from speech signals, unfortunately require substantial memory and computational resources, which limits their use in less powerful devices. To overcome this, we introduce a novel system, XXX, optimized for such devices. XXX is built on the insight that speech understanding primarily relies on understanding the entire utterance's long-term dependencies, while privacy concerns are often linked to short-term details. Therefore, XXX focuses on selectively masking these short-term elements, preserving the quality of long-term speech understanding. The core of XXX is an innovative differential mask generator, grounded in interpretable learning, which fine-tunes the masking process. We tested XXX on the STM32H7 microcontroller, assessing its performance in various potential attack scenarios. The results show that XXX maintains speech understanding accuracy and privacy at levels comparable to existing encoders, but with a significant improvement in efficiency, achieving up to 53.3$\times$ faster processing and a 134.1$\times$ smaller memory footprint.
- Abstract(参考訳): 音声は組み込み機器の一般的な入力方式であるが、クラウドベースの音声認識システムはプライバシー上のリスクをもたらす。
ディアンタングメントベースのエンコーダは、音声信号から機密情報をフィルタリングすることでユーザのプライバシを保護するように設計されている。
そこで我々は,このようなデバイスに最適化された新しいシステム XXX を提案する。
XXXは、音声理解は主に発話の長期的な依存関係全体を理解することに依存しているという洞察に基づいて構築されている。
そのため、XXXはこれらの短期的要素を選択的にマスキングすることに集中し、長期的な音声理解の質を維持する。
XXXのコアは、解釈可能な学習に基礎を置き、マスク処理を微調整する革新的な微分マスク生成器である。
我々は、STM32H7マイクロコントローラ上でXXXを試験し、その性能を様々な攻撃シナリオで評価した。
その結果、XXXは既存のエンコーダに匹敵するレベルの音声認識精度とプライバシーを維持しているが、効率を大幅に改善し、53.3$\times$高速処理と134.1$\times$より小さなメモリフットプリントを実現している。
関連論文リスト
- Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。
しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。
より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-11-20T20:00:38Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - End-to-end streaming model for low-latency speech anonymization [11.098498920630782]
本稿では低レイテンシで話者匿名化を実現するストリーミングモデルを提案する。
システムは軽量コンテンツエンコーダを用いてエンドツーエンドのオートエンコーダ方式で訓練される。
本稿では,2つのシステムの実装による評価結果について述べる。
論文 参考訳(メタデータ) (2024-06-13T16:15:53Z) - Anonymizing Speech: Evaluating and Designing Speaker Anonymization
Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。
本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-05T16:14:17Z) - SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。
自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。
本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T02:56:40Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Paralinguistic Privacy Protection at the Edge [5.349852254138085]
EDGYは高次元音声データを変換・フィルタリングする表現学習フレームワークで,クラウドへのオフロードに先立ってエッジの感度特性を識別・保持する。
その結果, EDGYは数ミリ秒で動作し, ABXスコアは0.2%向上し, 生音声信号から言語表現を学習する際のペナルティは最小限に抑えられた。
論文 参考訳(メタデータ) (2020-11-04T14:11:35Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z) - InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。
我々はこの問題を新しい画像難読化フレームワークで解決する。
提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文 参考訳(メタデータ) (2020-05-20T19:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。