論文の概要: Practical Speech Re-use Prevention in Voice-driven Services
- arxiv url: http://arxiv.org/abs/2101.04773v1
- Date: Tue, 12 Jan 2021 22:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 02:42:29.036721
- Title: Practical Speech Re-use Prevention in Voice-driven Services
- Title(参考訳): 音声駆動サービスにおける実践的音声再使用防止
- Authors: Yangyong Zhang, Maliheh Shirvanian, Sunpreet S. Arora, Jianwei Huang,
and Guofei Gu
- Abstract要約: 音声駆動サービス(VDS)は、スマートホームコントロールからデジタルアシスタントを使った支払いまで、さまざまなアプリケーションで使用されている。
このような設定における重要な運用セキュリティ要件の1つは、入力音声の新鮮さです。
本稿では,ユーザインタラクション時に動的音響ノイズを埋め込むセキュリティオーバーレイを提案する。
音響能は(i)確実に埋め込まれ、取り出すことができ、(ii)VDSユーザーに対して非破壊的(かつ知覚不能)であることを実証する。
- 参考スコア(独自算出の注目度): 28.7930704553513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice-driven services (VDS) are being used in a variety of applications
ranging from smart home control to payments using digital assistants. The input
to such services is often captured via an open voice channel, e.g., using a
microphone, in an unsupervised setting. One of the key operational security
requirements in such setting is the freshness of the input speech. We present
AEOLUS, a security overlay that proactively embeds a dynamic acoustic nonce at
the time of user interaction, and detects the presence of the embedded nonce in
the recorded speech to ensure freshness. We demonstrate that acoustic nonce can
(i) be reliably embedded and retrieved, and (ii) be non-disruptive (and even
imperceptible) to a VDS user. Optimal parameters (acoustic nonce's operating
frequency, amplitude, and bitrate) are determined for (i) and (ii) from a
practical perspective. Experimental results show that AEOLUS yields 0.5% FRR at
0% FAR for speech re-use prevention upto a distance of 4 meters in three
real-world environments with different background noise levels. We also conduct
a user study with 120 participants, which shows that the acoustic nonce does
not degrade overall user experience for 94.16% of speech samples, on average,
in these environments. AEOLUS can therefore be used in practice to prevent
speech re-use and ensure the freshness of speech input.
- Abstract(参考訳): 音声駆動サービス(VDS)は、スマートホームコントロールからデジタルアシスタントを使った支払いまで、さまざまなアプリケーションで使用されている。
このようなサービスへの入力は、オープンな音声チャンネル、例えばマイクを使って、教師なしの設定でキャプチャされることが多い。
このような設定における運用上のセキュリティ要件の1つは、入力音声の鮮度である。
本稿では,ユーザインタラクション時に動的音響ノイズを積極的に埋め込んだセキュリティオーバーレイであるAEOLUSについて述べる。
音響ノイズは, (i) 確実に組込み, 取り出しが可能であり, (ii) 非破壊的 (かつ, 不可避) なvdsユーザであることを示す。
実用的観点から、(i)および(ii)に対して最適なパラメータ(音響ナンスの動作周波数、振幅、ビットレート)を決定する。
実験の結果,AEOLUSは背景雑音レベルが異なる3つの実環境において,音声の再使用防止のために0% FARで0.5%FRRを得ることがわかった。
また,120名の被験者によるユーザ調査を行い,これらの環境では,94.16%の音声サンプルにおいて,全体のユーザエクスペリエンスが低下しないことを示した。
そのため、AEOLUSは音声の再使用を防止し、音声入力の鮮度を確保するために実際に使用することができる。
関連論文リスト
- Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。
トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-08-12T16:23:58Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Crowdotic: A Privacy-Preserving Hospital Waiting Room Crowd Density
Estimation with Non-speech Audio [4.149485024539117]
クラウド分析のための非音声音声に基づくアプローチを提案する。
非音声のみを用いて、顕著な精度でそのような分析を行うことができる。
論文 参考訳(メタデータ) (2023-09-19T03:08:20Z) - Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning [7.387631194438338]
DARE-GPは、音声の書き起こし関連部分を保存しながら、ユーザの感情情報を隠蔽する付加的なノイズを生成するソリューションである。
DARE-GPは、既存の作品と異なり、a) 音声の書き起こしを保護しながら、(b) 未確認のブラックボックスのSER分類器に対して、(b) 音の聞こえない発話をリアルタイムに保護し、(c) 声の書き起こしを現実的に音響的に保護する。
論文 参考訳(メタデータ) (2022-11-17T00:25:05Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Voice Privacy with Smart Digital Assistants in Educational Settings [1.8369974607582578]
ソースにおける音声プライバシーのための実用的で効率的なフレームワークを設計・評価する。
このアプローチでは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上でユーザのアイデンティティをランダムに偽装する。
我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
論文 参考訳(メタデータ) (2021-03-24T19:58:45Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。