論文の概要: Your Microphone Array Retains Your Identity: A Robust Voice Liveness Detection System for Smart Speakers
- arxiv url: http://arxiv.org/abs/2510.24393v1
- Date: Tue, 28 Oct 2025 13:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.188063
- Title: Your Microphone Array Retains Your Identity: A Robust Voice Liveness Detection System for Smart Speakers
- Title(参考訳): マイクロフォンのアレーがあなたの身元を保持:スマートスピーカーのためのロバストな音声ライブ検出システム
- Authors: Yan Meng, Jiachun Li, Matthew Pillari, Arjun Deopujari, Liam Brennan, Hafsah Shamsie, Haojin Zhu, Yuan Tian,
- Abstract要約: 本稿では,マイクロホンアレイを用いて収集した音声の同一性を決定する,新たなライブ機能であるアレー指紋を提案する。
32,780個のオーディオサンプルと14個のスプーフィングデバイスを含むデータセットに対する評価は、ARRAYIDが99.84%の精度を達成したことを示している。
- 参考スコア(独自算出の注目度): 15.791088130388337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though playing an essential role in smart home systems, smart speakers are vulnerable to voice spoofing attacks. Passive liveness detection, which utilizes only the collected audio rather than the deployed sensors to distinguish between live-human and replayed voices, has drawn increasing attention. However, it faces the challenge of performance degradation under the different environmental factors as well as the strict requirement of the fixed user gestures. In this study, we propose a novel liveness feature, array fingerprint, which utilizes the microphone array inherently adopted by the smart speaker to determine the identity of collected audios. Our theoretical analysis demonstrates that by leveraging the circular layout of microphones, compared with existing schemes, array fingerprint achieves a more robust performance under the environmental change and user's movement. Then, to leverage such a fingerprint, we propose ARRAYID, a lightweight passive detection scheme, and elaborate a series of features working together with array fingerprint. Our evaluation on the dataset containing 32,780 audio samples and 14 spoofing devices shows that ARRAYID achieves an accuracy of 99.84%, which is superior to existing passive liveness detection schemes.
- Abstract(参考訳): スマートホームシステムでは重要な役割を果たすが、スマートスピーカーは音声スプーフィング攻撃に弱い。
人間の声と再生した声を区別するために、配置されたセンサではなく収集された音声のみを利用する受動生検出が注目されている。
しかし, 環境要因の違いによる性能劣化と, 固定ユーザジェスチャーの厳格な要件に直面する。
本研究では,スマートスピーカーが本質的に採用しているマイクロホンアレーを用いて,収集した音声の同一性を決定する,新たなライブ機能であるアレー指紋を提案する。
理論解析により, マイクロホンの円周配置を既存方式と比較して利用することにより, 環境変化やユーザの動きに対して, より堅牢な性能が得られることが示された。
そこで本研究では,これらの指紋を活用するために,軽量な受動的検出方式であるARRAYIDを提案し,アレイ指紋と協調して動作する一連の特徴について詳しく述べる。
32,780個の音声サンプルと14個のスプーフィング装置を含むデータセットに対する評価は、ARRAYIDが99.84%の精度を達成していることを示している。
関連論文リスト
- Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers [53.12031345322412]
話者埋め込みを用いた個人識別再割り当て後追跡を提案する。
ビームフォーミングは、話者埋め込みを計算するために、話者の位置に対する信号を強化するために使用される。
不活発な期間に話者の位置が変化するデータセット上で,提案した話者埋め込みに基づくアイデンティティ再割り当て手法の性能を評価する。
論文 参考訳(メタデータ) (2025-06-23T13:02:20Z) - Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues [2.048226951354646]
我々は,テキストベース話者識別を改善するために,大規模な事前学習モデルからのファジィ指紋の使用について検討する。
話者固有のトークンとコンテキスト認識モデリングを統合し、会話コンテキストが精度を大幅に向上させることを示す。
あいまいな発話を分析し、話者非依存の線を検出するメカニズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T08:44:33Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - SuperVoice: Text-Independent Speaker Verification Using Ultrasound
Energy in Human Speech [10.354590276508283]
ボイスアクティベートシステムは、さまざまなデスクトップ、モバイル、IoT(Internet-of-Things)デバイスに統合されている。
既存の話者検証技術は、音声コマンドの可聴周波数範囲から抽出した分光学的特徴により、個々の話者を識別する。
本稿では,特徴融合機構を備えた2ストリームアーキテクチャを用いた話者検証システム SUPERVOICE を提案する。
論文 参考訳(メタデータ) (2022-05-28T18:00:50Z) - Multilingual Audio-Visual Smartphone Dataset And Evaluation [35.82191448400655]
最新の5つのスマートフォンで収集された音声・視覚スマートフォンのデータセットを提示する。
このデータセットでは、話者認識システムの言語依存の問題を含むために、3つの異なる言語が取得される。
また,ベンチマーク付生体認証システムの性能について報告する。
論文 参考訳(メタデータ) (2021-09-09T09:52:37Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - A Lightweight Speaker Recognition System Using Timbre Properties [0.5708902722746041]
ランダム森林分類器に基づく軽量テキスト非依存話者認識モデルを提案する。
また、話者認証と識別タスクの両方に使用される新機能も導入されている。
このプロトタイプは7つの最も活発に探索された特性、ブーム性、明るさ、深さ、硬さ、音色、鋭さ、暖かさを使っている。
論文 参考訳(メタデータ) (2020-10-12T07:56:03Z) - Latent Fingerprint Registration via Matching Densely Sampled Points [100.53031290339483]
既存の潜伏指紋登録手法は、主にミツバチ間の対応を確立することに基づいている。
本研究では,一対の指紋間の空間的変換を推定する,最小限の潜伏指紋登録手法を提案する。
提案手法は,特に挑戦的な条件下で,最先端の登録性能を実現する。
論文 参考訳(メタデータ) (2020-05-12T15:51:59Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。