論文の概要: Adversarial Representation Learning for Robust Privacy Preservation in
Audio
- arxiv url: http://arxiv.org/abs/2305.00011v2
- Date: Wed, 3 Jan 2024 13:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:07:23.687210
- Title: Adversarial Representation Learning for Robust Privacy Preservation in
Audio
- Title(参考訳): 音声におけるロバストプライバシー保護のための逆表現学習
- Authors: Shayan Gharib, Minh Tran, Diep Luong, Konstantinos Drossos, Tuomas
Virtanen
- Abstract要約: 音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。
本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。
提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
- 参考スコア(独自算出の注目度): 11.409577482625053
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sound event detection systems are widely used in various applications such as
surveillance and environmental monitoring where data is automatically
collected, processed, and sent to a cloud for sound recognition. However, this
process may inadvertently reveal sensitive information about users or their
surroundings, hence raising privacy concerns. In this study, we propose a novel
adversarial training method for learning representations of audio recordings
that effectively prevents the detection of speech activity from the latent
features of the recordings. The proposed method trains a model to generate
invariant latent representations of speech-containing audio recordings that
cannot be distinguished from non-speech recordings by a speech classifier. The
novelty of our work is in the optimization algorithm, where the speech
classifier's weights are regularly replaced with the weights of classifiers
trained in a supervised manner. This increases the discrimination power of the
speech classifier constantly during the adversarial training, motivating the
model to generate latent representations in which speech is not
distinguishable, even using new speech classifiers trained outside the
adversarial training loop. The proposed method is evaluated against a baseline
approach with no privacy measures and a prior adversarial training method,
demonstrating a significant reduction in privacy violations compared to the
baseline approach. Additionally, we show that the prior adversarial method is
practically ineffective for this purpose.
- Abstract(参考訳): 音響イベント検出システムは、監視や環境監視といった様々なアプリケーションで広く使用されており、データは自動的に収集され、処理され、クラウドに送信される。
しかし、このプロセスは必然的にユーザーや周囲に関する機密情報を開示し、プライバシー上の懸念を引き起こす可能性がある。
本研究では,音声録音の潜在的特徴から音声活動の検出を効果的に防止する,音声録音の表現を学習するための新しい学習手法を提案する。
提案手法は,非音声録音と音声分類器では区別できない音声録音の不変な潜在表現を生成するようにモデルを訓練する。
私たちの研究の目新しさは最適化アルゴリズムにあり、音声分類器の重みは教師付きで訓練された分類器の重みに定期的に置き換えられる。
これにより、対向訓練中に常に音声分類器の識別能力を高め、対向訓練ループの外で訓練された新しい音声分類器を用いても、発話が識別できない潜在表現を生成する動機付けとなる。
提案手法は,プライバシ対策が不要なベースラインアプローチと,プライバシ違反がベースラインアプローチに比べて有意に低減する先行的敵訓練手法に対して評価を行う。
また,本手法は,本手法では効果的ではないことを示す。
関連論文リスト
- Representation Learning for Audio Privacy Preservation using Source
Separation and Robust Adversarial Learning [16.1694012177079]
本稿では,プライバシ保護における2つの一般的なアプローチ – ソース分離と逆表現学習 – の統合を提案する。
提案システムは,音声録音と非音声録音の区別を防止するために,音声録音の潜在表現を学習する。
論文 参考訳(メタデータ) (2023-08-09T13:50:00Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Personalized Speech Enhancement through Self-Supervised Data
Augmentation and Purification [24.596224536399326]
疑似ソースのフレームバイフレームSNRを推定するために、SNR予測モデルを訓練する。
提案手法は,話者固有の雑音データの有用性を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-04-05T17:17:55Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。