論文の概要: Real-Time Voicemail Detection in Telephony Audio Using Temporal Speech Activity Features
- arxiv url: http://arxiv.org/abs/2604.09675v1
- Date: Thu, 02 Apr 2026 17:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.617447
- Title: Real-Time Voicemail Detection in Telephony Audio Using Temporal Speech Activity Features
- Title(参考訳): 時間的音声活動特徴を用いた電話音声のリアルタイム音声検出
- Authors: Kumar Saurav,
- Abstract要約: 本稿では,事前学習したニューラル音声活動検出器の音声活動パターンから15の時間的特徴を抽出する軽量なアプローチを提案する。
2つの評価セットで合計764の電話録音を行い、96.1%の精度で合成する。
- 参考スコア(独自算出の注目度): 1.066048003460524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Outbound AI calling systems must distinguish voicemail greetings from live human answers in real time to avoid wasted agent interactions and dropped calls. We present a lightweight approach that extracts 15 temporal features from the speech activity pattern of a pre-trained neural voice activity detector (VAD), then classifies with a shallow tree-based ensemble. Across two evaluation sets totaling 764 telephony recordings, the system achieves a combined 96.1% accuracy (734/764), with 99.3% (139/140) on an expert-labeled test set and 95.4% (595/624) on a held-out production set. In production validation over 77,000 calls, it maintained a 0.3% false positive rate and 1.3% false negative rate. End-to-end inference completes in 46 ms on a commodity dual-core CPU with no GPU, supporting 380+ concurrent WebSocket calls. In our search over 3,780 model, feature, and threshold combinations, feature importance was concentrated in three temporal variables. Adding transcription keywords or beep-based features did not improve the best real-time configuration and increased latency substantially. Our results suggest that temporal speech patterns are a strong signal for distinguishing voicemail greetings from live human answers.
- Abstract(参考訳): アウトバウンドのAI通話システムは、音声メールの挨拶と生の人間の回答をリアルタイムで区別し、無駄なエージェントのやりとりを避け、電話を落としなければならない。
本稿では,事前訓練されたニューラル音声活動検出器(VAD)の音声活動パターンから15の時間的特徴を抽出し,浅い木に基づくアンサンブルで分類する。
計764の電話録音を合計して、このシステムは96.1%の精度(734/764)、エキスパートラベルテストセットで99.3%(139/140)、ホールドアウトプロダクションセットで95.4%(595/624)を達成している。
77,000件の通話で、偽陽性率0.3%、偽陰性率1.3%を維持した。
エンドツーエンドの推論は、GPUのないコモディティデュアルコアCPU上で46ミリ秒で完了し、380以上の同時WebSocketコールをサポートする。
3,780モデル,特徴,しきい値の組み合わせの探索では,3つの時間変数に特徴が集中していた。
書き起こしキーワードやビープベースの機能を追加することで、最高のリアルタイム設定が向上せず、レイテンシが大幅に向上した。
以上の結果から, 発話パターンは, 音声メールの挨拶と人間の生きた回答を区別する強力なシグナルであることが示唆された。
関連論文リスト
- A Hierarchical End-of-Turn Model with Primary Speaker Segmentation for Real-Time Conversational AI [3.995809098639418]
音声ベースの会話型AIのフロントエンドをリアルタイムに提供し、2話者シナリオでの自然なターンテイクを可能にする。
マルチスピーカー環境においてロバストに動作するために、システムはメインユーザーを継続的に識別し追跡する。
論文 参考訳(メタデータ) (2026-03-10T21:17:17Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - SuperVoice: Text-Independent Speaker Verification Using Ultrasound
Energy in Human Speech [10.354590276508283]
ボイスアクティベートシステムは、さまざまなデスクトップ、モバイル、IoT(Internet-of-Things)デバイスに統合されている。
既存の話者検証技術は、音声コマンドの可聴周波数範囲から抽出した分光学的特徴により、個々の話者を識別する。
本稿では,特徴融合機構を備えた2ストリームアーキテクチャを用いた話者検証システム SUPERVOICE を提案する。
論文 参考訳(メタデータ) (2022-05-28T18:00:50Z) - On the pragmatism of using binary classifiers over data intensive neural
network classifiers for detection of COVID-19 from voice [34.553128768223615]
音声からCOVID-19を検出するには、カスタムメイドの非標準機能や複雑なニューラルネットワーク分類器を必要としない。
臨床現場で収集・校正された人為的なデータセットからこれを実証する。
論文 参考訳(メタデータ) (2022-04-11T00:19:14Z) - Nonverbal Sound Detection for Disordered Speech [24.636175845214822]
15個の非言語音を用いた音声事象検出に依拠する音声入力システムを提案する。
このシステムは、人の音声能力に関係なく動作し、既存の技術に完全にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2022-02-15T22:02:58Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis
System [31.283081762312964]
XiaoiceSingは、スペクトル、F0、持続時間モデリングのための統合ネットワークを利用する歌声合成システムである。
XiaoiceSingは音質1.44 MOS、発音精度1.18、自然性1.38で畳み込みニューラルネットワークのベースラインシステムを上回っている。
論文 参考訳(メタデータ) (2020-06-11T09:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。