論文の概要: Eve Said Yes: AirBone Authentication for Head-Wearable Smart Voice Assistant
- arxiv url: http://arxiv.org/abs/2309.15203v1
- Date: Tue, 26 Sep 2023 19:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 03:41:25.508068
- Title: Eve Said Yes: AirBone Authentication for Head-Wearable Smart Voice Assistant
- Title(参考訳): Eve曰く:AirBoneによるスマートアシスタントの認証
- Authors: Chenpei Huang, Hui Zhong, Jie Lian, Pavana Prakash, Dian Shi, Yuan Xu, Miao Pan,
- Abstract要約: 同一の発声による空気と骨の伝導(AC/BC)は、結合(または同時)され、ユーザレベル固有のものとなる。
正当なユーザは、提案された2段階のAirBone認証で、音響ドメインを破り、サンプルをクロスドメインにスプーフィングすることもできる。
- 参考スコア(独自算出の注目度): 10.694874051404648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in machine learning and natural language processing have fostered the enormous prosperity of smart voice assistants and their services, e.g., Alexa, Google Home, Siri, etc. However, voice spoofing attacks are deemed to be one of the major challenges of voice control security, and never stop evolving such as deep-learning-based voice conversion and speech synthesis techniques. To solve this problem outside the acoustic domain, we focus on head-wearable devices, such as earbuds and virtual reality (VR) headsets, which are feasible to continuously monitor the bone-conducted voice in the vibration domain. Specifically, we identify that air and bone conduction (AC/BC) from the same vocalization are coupled (or concurrent) and user-level unique, which makes them suitable behavior and biometric factors for multi-factor authentication (MFA). The legitimate user can defeat acoustic domain and even cross-domain spoofing samples with the proposed two-stage AirBone authentication. The first stage answers \textit{whether air and bone conduction utterances are time domain consistent (TC)} and the second stage runs \textit{bone conduction speaker recognition (BC-SR)}. The security level is hence increased for two reasons: (1) current acoustic attacks on smart voice assistants cannot affect bone conduction, which is in the vibration domain; (2) even for advanced cross-domain attacks, the unique bone conduction features can detect adversary's impersonation and machine-induced vibration. Finally, AirBone authentication has good usability (the same level as voice authentication) compared with traditional MFA and those specially designed to enhance smart voice security. Our experimental results show that the proposed AirBone authentication is usable and secure, and can be easily equipped by commercial off-the-shelf head wearables with good user experience.
- Abstract(参考訳): 機械学習と自然言語処理の最近の進歩は、スマート音声アシスタントとそのサービス(Alexa、Google Home、Siriなど)の巨大な繁栄を後押ししている。
しかし、音声スプーフィング攻撃は、音声制御セキュリティの主要な課題の1つと考えられており、深層学習に基づく音声変換や音声合成技術のような進化を止めることは決してない。
音響領域外におけるこの問題を解決するため,振動領域内の骨伝導性音声を連続的に監視できるイヤホンやVRヘッドセットなどのヘッドウェアデバイスに焦点をあてる。
具体的には,同一の発声から発生する空気と骨の伝導(AC/BC)とユーザレベルの特異性が結合され,多要素認証(MFA)に好適な振る舞いと生体計測因子が得られた。
正当なユーザは、提案された2段階のAirBone認証で、音響ドメインを破り、サンプルをクロスドメインにスプーフィングすることもできる。
第1のステージは、空気および骨伝導発話が時間領域一貫性(TC)であるかを問う「textit{w」、第2のステージは「textit{bone伝導話者認識(BC-SR)」を実行する。
その結果,(1) スマート音声アシスタントの音響的攻撃は, 振動領域にある骨伝導に影響を与えない, (2) 高度なクロスドメイン攻撃においても, 独特な骨伝導は敵の偽装や機械による振動を検出できる,という2つの理由から, セキュリティレベルが向上した。
最後に、AirBone認証は、従来のMFAやスマート音声セキュリティを強化するために特別に設計されたものと比べて、使い勝手(音声認証と同じレベル)が良い。
実験の結果,提案したAirBone認証は有用かつ安全であり,市販の市販ヘッドウェアラブルで容易に使用でき,ユーザエクスペリエンスも良好であることがわかった。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - EarPass: Secure and Implicit Call Receiver Authentication Using Ear Acoustic Sensing [14.78387043362623]
EarPassは、スマートフォンのセキュアで暗黙的なコールレシーバ認証方式である。
イヤーピーススピーカーを通して難聴の音響信号を送信し、外耳を積極的に感知する。
バランスの取れた精度は96.95%で、エラー率は1.53%である。
論文 参考訳(メタデータ) (2024-04-23T13:03:09Z) - Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning [7.387631194438338]
DARE-GPは、音声の書き起こし関連部分を保存しながら、ユーザの感情情報を隠蔽する付加的なノイズを生成するソリューションである。
DARE-GPは、既存の作品と異なり、a) 音声の書き起こしを保護しながら、(b) 未確認のブラックボックスのSER分類器に対して、(b) 音の聞こえない発話をリアルタイムに保護し、(c) 声の書き起こしを現実的に音響的に保護する。
論文 参考訳(メタデータ) (2022-11-17T00:25:05Z) - Speaker Anonymization with Phonetic Intermediate Representations [22.84840887071428]
本稿では,話者の匿名化パイプラインを提案する。
中間表現として電話を用いると、入力から話者識別情報のほぼ完全な除去が保証される。
論文 参考訳(メタデータ) (2022-07-11T13:02:08Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Practical Attacks on Voice Spoofing Countermeasures [3.388509725285237]
悪意あるアクターが、音声認証を最も厳格な形でバイパスするために、音声サンプルを効率的に作ることができることを示す。
本研究の結果は,攻撃者の脅威を回避し,現代の音声認証システムのセキュリティに疑問を投げかけるものである。
論文 参考訳(メタデータ) (2021-07-30T14:07:49Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。