論文の概要: Detecting Throat Cancer from Speech Signals Using Machine Learning: A
Reproducible Literature Review
- arxiv url: http://arxiv.org/abs/2307.09230v1
- Date: Tue, 18 Jul 2023 13:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:42:56.444385
- Title: Detecting Throat Cancer from Speech Signals Using Machine Learning: A
Reproducible Literature Review
- Title(参考訳): 機械学習による音声信号からの喉癌検出:再現性文献レビュー
- Authors: Mary Paterson, James Moor, Luisa Cutillo
- Abstract要約: 我々は,機械学習と人工知能を用いた音声記録から喉頭癌の検出に関する現在の文献のスコーピングレビューを行う。
この領域で22の論文を見つけ、その方法と結果について議論する。
我々はこれらの論文を,9つの2進分類と13つの多進分類の2つのグループに分けた。
本論文では、ニューラルネットワークを最も一般的に実装する手法について述べる。また、分類前の音声から多くの特徴を抽出し、最も一般的なものは、メル周波数ケプストラム係数をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we perform a scoping review of the current literature on the
detection of throat cancer from speech recordings using machine learning and
artificial intelligence. We find 22 papers within this area and discuss their
methods and results. We split these papers into two groups - nine performing
binary classification, and 13 performing multi-class classification. The papers
present a range of methods with neural networks being most commonly
implemented. Many features are also extracted from the audio before
classification, with the most common bring mel-frequency cepstral coefficients.
None of the papers found in this search have associated code repositories and
as such are not reproducible. Therefore, we create a publicly available code
repository of our own classifiers. We use transfer learning on a multi-class
problem, classifying three pathologies and healthy controls. Using this
technique we achieve an unweighted average recall of 53.54%, sensitivity of
83.14%, and specificity of 64.00%. We compare our classifiers with the results
obtained on the same dataset and find similar results.
- Abstract(参考訳): 本研究は,機械学習と人工知能を用いた音声記録からの喉頭癌検出に関する現在の文献のスコーピングレビューを行う。
この領域で22の論文を見つけ、その方法と結果について論じる。
これらの論文を2次分類を行う9つのグループと,マルチクラス分類を行う13の2つのグループに分けた。
この論文は、ニューラルネットワークを最も一般的に実装した様々な手法を提示する。
多くの特徴は分類前の音声から抽出され、最も一般的なものはメル周波数ケプストラム係数である。
この検索で見つかったどの論文も関連コードリポジトリを持っておらず、再現できない。
したがって、私たちは独自の分類器の公開コードリポジトリを作成します。
トランスファー学習を多クラス問題に用い,3つの病理と健全な制御を分類する。
この手法により、平均平均リコール率は53.54%、感度83.14%、特異度64.00%である。
分類器を同じデータセットで得られた結果と比較し、同様の結果を得る。
関連論文リスト
- On the pragmatism of using binary classifiers over data intensive neural
network classifiers for detection of COVID-19 from voice [34.553128768223615]
音声からCOVID-19を検出するには、カスタムメイドの非標準機能や複雑なニューラルネットワーク分類器を必要としない。
臨床現場で収集・校正された人為的なデータセットからこれを実証する。
論文 参考訳(メタデータ) (2022-04-11T00:19:14Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Triplet Contrastive Learning for Brain Tumor Classification [99.07846518148494]
本稿では,脳腫瘍の深層埋め込みを直接学習する手法を提案する。
本手法は,27種類の腫瘍群からなる広範囲な脳腫瘍データセットを用いて評価し,そのうち13種は稀である。
論文 参考訳(メタデータ) (2021-08-08T11:26:34Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Does a Hybrid Neural Network based Feature Selection Model Improve Text
Classification? [9.23545668304066]
関連する特徴を得るためのハイブリッド特徴選択手法を提案する。
次に、特徴選択とニューラルネットワークパイプラインを実装する3つの方法を示す。
また,いくつかのデータセットの精度もわずかに向上した。
論文 参考訳(メタデータ) (2021-01-22T09:12:19Z) - COVID-19 Patient Detection from Telephone Quality Speech Data [4.726777092009554]
本研究は、音声データに新型コロナウイルスに関する手がかりが存在するかどうかを調査する。
このデータセット上のSVM分類器は88.6%の精度とF1スコア92.7%の精度を達成することができる。
鼻音、停止音、中母音などの一部の電話クラスは、2つのクラスを他のクラスよりもよく区別することができる。
論文 参考訳(メタデータ) (2020-11-09T10:16:08Z) - Data augmentation using generative networks to identify dementia [20.137419355252362]
生成モデルはデータ拡張の効果的なアプローチとして利用できることを示す。
本稿では,認知症自動検出システムから抽出した音声と音声の異なる特徴に対する類似したアプローチの適用について検討する。
論文 参考訳(メタデータ) (2020-04-13T15:05:24Z) - Decoding Imagined Speech using Wavelet Features and Deep Neural Networks [2.4063592468412267]
本稿では, 深層ニューラルネットワークを用いた予測音声の分類手法を提案する。
提案手法では、脳の特定の領域にのみEEGチャネルを用いて分類し、それぞれのチャネルから特徴ベクトルを導出する。
提案したアーキテクチャとデータ処理のアプローチにより,57.15%の平均分類精度が向上し,最先端の結果よりも約35%向上した。
論文 参考訳(メタデータ) (2020-03-19T00:36:19Z) - Multi-Class Classification from Noisy-Similarity-Labeled Data [98.13491369929798]
雑音に類似したラベル付きデータのみから学習する方法を提案する。
ノイズ遷移行列を用いて、クリーンデータとノイズデータの間にクラス後確率をブリッジする。
雑音のないクラスラベルをインスタンスに割り当てる新しい学習システムを構築した。
論文 参考訳(メタデータ) (2020-02-16T05:10:21Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。