論文の概要: Beyond the Voice: Inertial Sensing of Mouth Motion for High Security Speech Verification
- arxiv url: http://arxiv.org/abs/2510.15173v1
- Date: Thu, 16 Oct 2025 22:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.404608
- Title: Beyond the Voice: Inertial Sensing of Mouth Motion for High Security Speech Verification
- Title(参考訳): 声の先:高セキュリティ音声認識のためのモースモーションの慣性センシング
- Authors: Ynes Ineza, Muhammad A. Ullah, Abdul Serwadda, Aurore Munyaneza,
- Abstract要約: 話者の下面のユニークな動きパターンと音響的証拠を組み合わせた第2の認証因子を提案する。
我々のシステムは、個人間で強い差別力を持つ、異なる動きのシグネチャを記録している。
音声認証システムにおいて、この第2の防衛線が明確なセキュリティ上の利点をもたらす、特定のユースケースについて論じる。
- 参考スコア(独自算出の注目度): 0.34998703934432673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice interfaces are increasingly used in high stakes domains such as mobile banking, smart home security, and hands free healthcare. Meanwhile, modern generative models have made high quality voice forgeries inexpensive and easy to create, eroding confidence in voice authentication alone. To strengthen protection against such attacks, we present a second authentication factor that combines acoustic evidence with the unique motion patterns of a speaker's lower face. By placing lightweight inertial sensors around the mouth to capture mouth opening and evolving lower facial geometry, our system records a distinct motion signature with strong discriminative power across individuals. We built a prototype and recruited 43 participants to evaluate the system under four conditions seated, walking on level ground, walking on stairs, and speaking with different language backgrounds (native vs. non native English). Across all scenarios, our approach consistently achieved a median equal error rate (EER) of 0.01 or lower, indicating that mouth movement data remain robust under variations in gait, posture, and spoken language. We discuss specific use cases where this second line of defense could provide tangible security benefits to voice authentication systems.
- Abstract(参考訳): ボイスインターフェースは、モバイルバンキング、スマートホームセキュリティ、ハンズフリーヘルスケアなど、高利害な領域での利用が増えている。
一方、現代の音声生成モデルは、高品質な音声偽造を安価で簡単に作成でき、音声認証のみの信頼性を損なう。
このような攻撃に対する防御を強化するために,音響的証拠と話者の下面の独特の動きパターンを結合した第2の認証因子を提案する。
口に軽量な慣性センサーを配置し、口の開口を捉え、下面の形状を進化させることで、個体間で強い識別力を持つ異なる動きのシグネチャを記録できる。
試作機を構築し,43名の参加者を募集し,座位,地上歩行,階段歩行,異なる言語背景(ネイティブ対非ネイティブ英語)でシステム評価を行った。
以上の結果から, 歩行, 姿勢, 話し言葉の変動下では, 口の動きデータが頑健であることが示唆された。
音声認証システムにおいて、この第2の防衛線が明確なセキュリティ上の利点をもたらす、特定のユースケースについて論じる。
関連論文リスト
- Benchmarking Fake Voice Detection in the Fake Voice Generation Arms Race [5.051497895059242]
既存のベンチマークでは、さまざまな偽音声サンプルを単一のデータセットに集約して評価する。
このプラクティスは、メソッド固有のアーティファクトをマスクし、異なる世代パラダイムに対する検出器のさまざまなパフォーマンスを隠蔽する。
我々は,新しい1対1評価プロトコルによって17の最先端の偽音声生成装置と8つの先行検知器の相互作用を体系的に評価する,最初のエコシステムレベルのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-08T00:52:06Z) - Backdoor Attacks Against Speech Language Models [63.07317091368079]
本研究は,音声認識モデルに対する音声バックドア攻撃に関する最初の体系的研究である。
4つの音声エンコーダと3つのデータセットにまたがってその効果を実証し、4つのタスクをカバーした。
汚染された事前訓練エンコーダの脅威を軽減できる微調整型防御法を提案する。
論文 参考訳(メタデータ) (2025-10-01T17:45:04Z) - VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z) - FreeTalk:A plug-and-play and black-box defense against speech synthesis attacks [40.22853425929116]
音声合成攻撃に対する軽量で堅牢なプラグアンドプレイプライバシ保護手法を提案する。
本手法は,プライバシ保護と高音質を実現するために,元の音声に周波数領域の摂動を生成し,付加する。
論文 参考訳(メタデータ) (2025-08-30T17:10:22Z) - Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework [6.002582335323663]
白箱シナリオにおけるMLLM(Multimodal Large Language Models)の音声入力を対象とする逆攻撃を提案する。
本稿では,新たなトークンレベルアタックを導入し,モデルの音声トークン化へのアクセスを活用して,逆トークン列を生成する。
当社のアプローチでは,複数の制限されたタスクに対して,最大99%の攻撃成功率を実現しています。
論文 参考訳(メタデータ) (2025-05-24T20:46:36Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Defend Data Poisoning Attacks on Voice Authentication [6.160281428772401]
機械学習による攻撃は、音声認証システムを危険にさらしている。
我々は、畳み込みニューラルネットワークに基づく識別器であるGuardianという、より堅牢な防御手法を提案する。
攻撃されたアカウントの95%を通常のアカウントと区別することができ、60%の精度で既存のアプローチよりもはるかに効果的です。
論文 参考訳(メタデータ) (2022-09-09T22:48:35Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。