論文の概要: Quantized Approximate Signal Processing (QASP): Towards Homomorphic Encryption for audio
- arxiv url: http://arxiv.org/abs/2505.10500v1
- Date: Thu, 15 May 2025 17:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.433222
- Title: Quantized Approximate Signal Processing (QASP): Towards Homomorphic Encryption for audio
- Title(参考訳): 量子近似信号処理(QASP):音声の同型暗号化を目指して
- Authors: Tu Duyen Nguyen, Adrien Lesage, Clotilde Cantini, Rachid Riad,
- Abstract要約: ホモモルフィック暗号化(FHE)は、暗号化されたデータの計算を可能にし、ユーザのプライバシを保存することで、有望なソリューションを提供する。
ここでは、FHEと量子化されたニューラルネットワーク操作を用いて、完全にセキュアなパイプラインを計算します。
提案手法は,音声記述子と畳み込みニューラルネットワーク(CNN)分類器のプライベートな計算もサポートする。
- 参考スコア(独自算出の注目度): 1.3584036432145363
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio and speech data are increasingly used in machine learning applications such as speech recognition, speaker identification, and mental health monitoring. However, the passive collection of this data by audio listening devices raises significant privacy concerns. Fully homomorphic encryption (FHE) offers a promising solution by enabling computations on encrypted data and preserving user privacy. Despite its potential, prior attempts to apply FHE to audio processing have faced challenges, particularly in securely computing time frequency representations, a critical step in many audio tasks. Here, we addressed this gap by introducing a fully secure pipeline that computes, with FHE and quantized neural network operations, four fundamental time-frequency representations: Short-Time Fourier Transform (STFT), Mel filterbanks, Mel-frequency cepstral coefficients (MFCCs), and gammatone filters. Our methods also support the private computation of audio descriptors and convolutional neural network (CNN) classifiers. Besides, we proposed approximate STFT algorithms that lighten computation and bit use for statistical and machine learning analyses. We ran experiments on the VocalSet and OxVoc datasets demonstrating the fully private computation of our approach. We showed significant performance improvements with STFT approximation in private statistical analysis of audio markers, and for vocal exercise classification with CNNs. Our results reveal that our approximations substantially reduce error rates compared to conventional STFT implementations in FHE. We also demonstrated a fully private classification based on the raw audio for gender and vocal exercise classification. Finally, we provided a practical heuristic for parameter selection, making quantized approximate signal processing accessible to researchers and practitioners aiming to protect sensitive audio data.
- Abstract(参考訳): 音声認識や話者識別、メンタルヘルスモニタリングといった機械学習アプリケーションでは、音声や音声のデータの利用が増えている。
しかし、オーディオリスニングデバイスによるこのデータの受動的収集は、重大なプライバシー上の懸念を引き起こす。
完全同型暗号化(FHE)は、暗号化されたデータの計算を可能にし、ユーザのプライバシを保存することによって、有望なソリューションを提供する。
その可能性にもかかわらず、FHEをオーディオ処理に適用しようとする以前の試みは、特に多くのオーディオタスクにおいて重要なステップであるセキュアな時間周波数表現において、課題に直面している。
ここでは、FHEと量子化されたニューラルネットワーク操作、短時間フーリエ変換(STFT)、メルフィルタバンク、メル周波数ケプストラム係数(MFCC)、ガンマトンフィルタの4つの基本的な時間周波数表現を用いて、完全にセキュアなパイプラインを導入することで、このギャップに対処した。
提案手法は,音声記述子と畳み込みニューラルネットワーク(CNN)分類器のプライベートな計算もサポートする。
さらに,統計的および機械学習解析のための計算とビット利用を軽量化する近似STFTアルゴリズムを提案する。
VocalSetとOxVocのデータセットで実験を行い、我々のアプローチの完全なプライベートな計算を実証した。
音声マーカーの個人統計解析とCNNを用いた発声運動分類においてSTFT近似による有意な性能改善が認められた。
この結果から,FHEにおける従来のSTFT実装と比較して,近似値の誤差が大幅に減少していることが判明した。
また,ジェンダーと発声運動の分類のための生音声に基づく完全プライベートな分類も行った。
最後に,パラメータ選択のための実用的ヒューリスティックな手法を提案し,感度の高い音声データを保護することを目的とした,量子化された近似信号処理を研究者や実践者に提供した。
関連論文リスト
- Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。
残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。
実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文 参考訳(メタデータ) (2024-12-14T15:11:42Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [7.864898315909104]
オーディオ・ビジュアル (AVS) と呼ばれる難題が出現し、シーン内のオブジェクトを音声化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Efficient CNN Building Blocks for Encrypted Data [6.955451042536852]
ホモモルフィック暗号化(FHE)は機械学習と推論を可能にする有望な技術である。
選択したFHE方式の動作パラメータが機械学習モデルの設計に大きな影響を与えることを示す。
実験により, 上記の設計パラメータの選択は, 精度, セキュリティレベル, 計算時間の間に大きなトレードオフをもたらすことがわかった。
論文 参考訳(メタデータ) (2021-01-30T21:47:23Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。