論文の概要: Privacy-Preserving Edge Speech Understanding with Tiny Foundation Models
- arxiv url: http://arxiv.org/abs/2502.01649v1
- Date: Wed, 29 Jan 2025 18:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 18:38:35.350135
- Title: Privacy-Preserving Edge Speech Understanding with Tiny Foundation Models
- Title(参考訳): Tiny Foundation Modelを用いたプライバシー保護エッジ音声理解
- Authors: Afsara Benazir, Felix Xiaozhu Lin,
- Abstract要約: 資源制約のあるデバイスにおける音声のプライバシー向上という新しい利用法を提案する。
エッジ/クラウドプライバシ保護型音声推論エンジンであるXYZを紹介する。
私たちのソリューションは、プライバシーを許さずに、堅牢な音声認識につながる。
- 参考スコア(独自算出の注目度): 0.9699101045941684
- License:
- Abstract: Robust speech recognition systems rely on cloud service providers for inference. It needs to ensure that an untrustworthy provider cannot deduce the sensitive content in speech. Sanitization can be done on speech content keeping in mind that it has to avoid compromising transcription accuracy. Realizing the under utilized capabilities of tiny speech foundation models (FMs), for the first time, we propose a novel use: enhancing speech privacy on resource-constrained devices. We introduce XYZ, an edge/cloud privacy preserving speech inference engine that can filter sensitive entities without compromising transcript accuracy. We utilize a timestamp based on-device masking approach that utilizes a token to entity prediction model to filter sensitive entities. Our choice of mask strategically conceals parts of the input and hides sensitive data. The masked input is sent to a trusted cloud service or to a local hub to generate the masked output. The effectiveness of XYZ hinges on how well the entity time segments are masked. Our recovery is a confidence score based approach that chooses the best prediction between cloud and on-device model. We implement XYZ on a 64 bit Raspberry Pi 4B. Experiments show that our solution leads to robust speech recognition without forsaking privacy. XYZ with < 100 MB memory, achieves state-of-the-art (SOTA) speech transcription performance while filtering about 83% of private entities directly on-device. XYZ is 16x smaller in memory and 17x more compute efficient than prior privacy preserving speech frameworks and has a relative reduction in word error rate (WER) by 38.8-77.5% when compared to existing offline transcription services.
- Abstract(参考訳): ロバスト音声認識システムは、推論のためにクラウドサービスプロバイダに依存している。
信頼できないプロバイダが、音声中のセンシティブなコンテンツを推論できないようにする必要があります。
書き起こし精度の低下を避ける必要があることを念頭に置いて、音声コンテンツに対して衛生を行うことができる。
小型音声基盤モデル(FM)の未利用能力を初めて実現し,資源制約のあるデバイスにおける音声のプライバシー向上という新たな利用法を提案する。
我々は,テキストの精度を損なうことなくセンシティブなエンティティをフィルタリングできるエッジ/クラウドプライバシ保護型音声推論エンジンであるXYZを紹介する。
我々は、トークンをエンティティ予測モデルに利用し、センシティブなエンティティをフィルタリングするタイムスタンプベースのオンデバイスマスキングアプローチを利用する。
マスクの選択は、入力の一部を戦略的に隠蔽し、機密データを隠蔽する。
マスクされた入力は、信頼できるクラウドサービスまたはローカルハブに送信され、マスクされた出力を生成する。
XYZヒンジの有効性は、エンティティ時間セグメントがどれだけうまくマスクされているかに影響を及ぼす。
私たちのリカバリは信頼性スコアに基づくアプローチで、クラウドとオンデバイスモデルの間で最高の予測を選択します。
我々は64ビットRaspberry Pi 4BにXYZを実装した。
実験により、私たちのソリューションは、プライバシーを許さずに、堅牢な音声認識につながることが示された。
100MBのメモリを持つXYZは、デバイス上で直接83%のプライベートエンティティをフィルタリングしながら、最先端のSOTA(State-of-the-art)音声書き起こし性能を達成する。
XYZは16倍のメモリと17倍の計算効率を持ち、既存のオフラインの転写サービスと比較して単語誤り率(WER)を38.8-77.5%削減している。
関連論文リスト
- Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Speech privacy-preserving methods using secret key for convolutional neural network models and their robustness evaluation [5.762345156477736]
信頼できないサードパーティがCNNベースのシステムを提供している環境では、音声クエリのプライバシが不可欠である。
本稿では,秘密鍵を用いた音声クエリの暗号化手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T16:51:39Z) - Lightweight Protection for Privacy in Offloaded Speech Understanding [1.6317061277457001]
クラウドベースの音声認識システムはプライバシーのリスクを引き起こす。
アンタングルメントベースのエンコーダは、かなりのメモリと計算資源を必要とする。
このような機器に最適化された新しいシステム XXX を導入する。
論文 参考訳(メタデータ) (2024-01-22T14:36:01Z) - Speech Understanding on Tiny Devices with A Learning Cache [2.7186799067647334]
SpeechCache(SC)は、小さなデバイス向けの音声キャッシュである。
我々は市販のSTM32マイクロコントローラにSCを実装した。
当社のシステムは,デバイス上での入力の45%-90%を解決し,一般的なクラウド音声認識サービスへのオフロードと比較して,平均遅延を最大80%削減する。
論文 参考訳(メタデータ) (2023-11-30T02:15:07Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Syfer: Neural Obfuscation for Private Data Release [58.490998583666276]
我々は、再識別攻撃から保護するための神経難読化法であるSyferを開発した。
Syferはトレーニングされたレイヤをランダムニューラルネットワークで構成し、元のデータをエンコードする。
エンコードされたデータから診断を予測する能力を維持している。
論文 参考訳(メタデータ) (2022-01-28T20:32:04Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Paralinguistic Privacy Protection at the Edge [5.349852254138085]
EDGYは高次元音声データを変換・フィルタリングする表現学習フレームワークで,クラウドへのオフロードに先立ってエッジの感度特性を識別・保持する。
その結果, EDGYは数ミリ秒で動作し, ABXスコアは0.2%向上し, 生音声信号から言語表現を学習する際のペナルティは最小限に抑えられた。
論文 参考訳(メタデータ) (2020-11-04T14:11:35Z) - Private Speech Classification with Secure Multiparty Computation [15.065527713259542]
深層学習に基づく音声分類のための最初のプライバシ保護ソリューションを提案する。
我々のアプローチでは、BobがAliceの音声信号を暗号化されていない方法で見ることなく、あるパーティの音声信号を別のパーティのディープニューラルネットワークで分類することができる。
畳み込みニューラルネットワークを用いた音声からのプライバシー保護感情検出のユースケースとして,提案手法の効率・セキュリティ・正確性トレードオフを評価する。
論文 参考訳(メタデータ) (2020-07-01T05:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。