論文の概要: Voice Privacy with Smart Digital Assistants in Educational Settings
- arxiv url: http://arxiv.org/abs/2104.11038v1
- Date: Wed, 24 Mar 2021 19:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 23:35:27.444149
- Title: Voice Privacy with Smart Digital Assistants in Educational Settings
- Title(参考訳): 教育環境におけるスマートデジタルアシスタントによる音声プライバシー
- Authors: Mohammad Niknazar and Aditya Vempaty and Ravi Kokku
- Abstract要約: ソースにおける音声プライバシーのための実用的で効率的なフレームワークを設計・評価する。
このアプローチでは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上でユーザのアイデンティティをランダムに偽装する。
我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
- 参考スコア(独自算出の注目度): 1.8369974607582578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of voice-assistant devices ushers in delightful user
experiences not just on the smart home front, but also in diverse educational
environments from classrooms to personalized-learning/tutoring. However, the
use of voice as an interaction modality also could result in exposure of user's
identity, and hinders the broader adoption of voice interfaces; this is
especially important in environments where children are present and their voice
privacy needs to be protected. To this end, building on state-of-the-art
techniques proposed in the literature, we design and evaluate a practical and
efficient framework for voice privacy at the source. The approach combines
speaker identification (SID) and speech conversion methods to randomly disguise
the identity of users right on the device that records the speech, while
ensuring that the transformed utterances of users can still be successfully
transcribed by Automatic Speech Recognition (ASR) solutions. We evaluate the
ASR performance of the conversion in terms of word error rate and show the
promise of this framework in preserving the content of the input speech.
- Abstract(参考訳): 音声アシスタントデバイスの出現は、スマートホームだけでなく、教室からパーソナライズ・ラーニング/学習まで多様な教育環境において、楽しいユーザー体験をもたらす。
しかし、対話モダリティとしての音声の使用は、ユーザのアイデンティティが露出し、音声インターフェースの広範な採用を妨げる可能性もあり、これは特に子供のいる環境や声のプライバシーを保護する必要がある環境において重要である。
この目的のために,文献に提案されている最先端技術に基づいて,音源における音声プライバシーの実用的かつ効率的な枠組みを設計・評価する。
このアプローチは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上で、ユーザのアイデンティティをランダムに偽装すると同時に、変換されたユーザの発話が、自動音声認識(ASR)ソリューションによって転写されることを保証する。
我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
関連論文リスト
- Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。
本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文 参考訳(メタデータ) (2024-08-12T10:21:09Z) - Privacy-Preserving Speech Representation Learning using Vector
Quantization [0.0]
音声信号には、プライバシー上の懸念を引き起こす話者のアイデンティティなど、多くの機密情報が含まれている。
本稿では,音声認識性能を保ちながら匿名表現を実現することを目的とする。
論文 参考訳(メタデータ) (2022-03-15T14:01:11Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Adversarial Disentanglement of Speaker Representation for
Attribute-Driven Privacy Preservation [17.344080729609026]
話者音声表現における属性駆動プライバシー保存の概念について紹介する。
これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。
本稿では,話者属性の音声表現に絡み合った逆自動符号化手法を提案し,その隠蔽を可能にする。
論文 参考訳(メタデータ) (2020-12-08T14:47:23Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。