論文の概要: A Recurrent Neural Network Approach to the Answering Machine Detection Problem
- arxiv url: http://arxiv.org/abs/2410.08235v1
- Date: Mon, 7 Oct 2024 21:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:36:03.708793
- Title: A Recurrent Neural Network Approach to the Answering Machine Detection Problem
- Title(参考訳): 繰り返しニューラルネットワークによる解答機検出問題の解法
- Authors: Kemal Altwlkany, Sead Delalic, Elmedin Selmanovic, Adis Alihodzic, Ivica Lovric,
- Abstract要約: 本稿では,YAMNetモデルによる伝達学習を利用した特徴抽出手法を提案する。
その結果, 精度が96%以上であることが確認された。さらに, 誤分類標本の詳細な分析を行い, 98%を超える精度が得られることを明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of telecommunications and cloud communications, accurately and in real-time detecting whether a human or an answering machine has answered an outbound call is of paramount importance. This problem is of particular significance during campaigns as it enhances service quality, efficiency and cost reduction through precise caller identification. Despite the significance of the field, it remains inadequately explored in the existing literature. This paper presents an innovative approach to answering machine detection that leverages transfer learning through the YAMNet model for feature extraction. The YAMNet architecture facilitates the training of a recurrent-based classifier, enabling real-time processing of audio streams, as opposed to fixed-length recordings. The results demonstrate an accuracy of over 96% on the test set. Furthermore, we conduct an in-depth analysis of misclassified samples and reveal that an accuracy exceeding 98% can be achieved with the integration of a silence detection algorithm, such as the one provided by FFmpeg.
- Abstract(参考訳): 通信とクラウド通信の分野では、人間か応答機かがアウトバウンドコールに応答したかどうかを正確にリアルタイムに検出することが最重要となる。
この問題は、正確な発信者識別を通じてサービス品質、効率、コスト削減を高めるため、キャンペーンにおいて特に重要である。
この分野の重要性にもかかわらず、既存の文献では不十分な調査が続けられている。
本稿では,YAMNetモデルによる伝達学習を利用した特徴抽出手法を提案する。
YAMNetアーキテクチャは、リカレントベースの分類器のトレーニングを容易にし、固定長の記録とは対照的に、オーディオストリームのリアルタイム処理を可能にする。
その結果,テストセットでは96%以上の精度が得られた。
さらに,誤分類サンプルの詳細な分析を行い,FFmpegなどのサイレント検出アルゴリズムを統合することにより,98%以上の精度が得られることを明らかにした。
関連論文リスト
- Feature Selection for Network Intrusion Detection [3.7414804164475983]
本稿では,ネットワーク侵入を検出する際に,非情報的特徴の排除を容易にする情報理論を提案する。
提案手法は,ニューラルネットワークを用いた関数近似に基づいて,再帰層を組み込んだアプローチのバージョンを実現する。
論文 参考訳(メタデータ) (2024-11-18T14:25:55Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - SeqNet: An Efficient Neural Network for Automatic Malware Detection [5.365259648024797]
生のバイナリに必要となる低メモリで高速にトレーニング可能な,SeqNetと呼ばれる軽量なマルウェア検出モデルを提案する。
コンテキストの混乱を避け、セマンティックロスを減らすことで、SeqNetはパラメータの数をわずか136Kに減らす際に検出精度を維持する。
論文 参考訳(メタデータ) (2022-05-08T12:31:35Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Robust and Interpretable Temporal Convolution Network for Event
Detection in Lung Sound Recordings [37.0780415938284]
肺音事象検出のための軽量で頑健で完全に解釈可能なフレームワークを提案する。
マルチブランチTCNアーキテクチャを使用し、これらのブランチから得られる特徴を組み合わせるために、新しい融合戦略を利用する。
異なる特徴融合戦略を解析した結果,提案手法は非表現的特徴の抑制に繋がることがわかった。
論文 参考訳(メタデータ) (2021-06-30T06:36:22Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - Lightweight Convolutional Neural Network with Gaussian-based Grasping
Representation for Robotic Grasping Detection [4.683939045230724]
現在の物体検出器は、高い精度と高速な推論速度のバランスを取るのが難しい。
ロボットつかみポーズ推定を行うための効率的かつ堅牢な完全畳み込みニューラルネットワークモデルを提案する。
ネットワークは、他の優れたアルゴリズムよりも桁違いに小さい順序です。
論文 参考訳(メタデータ) (2021-01-25T16:36:53Z) - BiDet: An Efficient Binarized Object Detector [96.19708396510894]
本稿では,効率的な物体検出のためのバイナライズニューラルネットワークのBiDetを提案する。
我々のBiDetは、冗長除去による物体検出にバイナリニューラルネットワークの表現能力を完全に活用している。
我々の手法は、最先端のバイナリニューラルネットワークを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-03-09T08:16:16Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。