論文の概要: Voice Disorder Analysis: a Transformer-based Approach
- arxiv url: http://arxiv.org/abs/2406.14693v1
- Date: Thu, 20 Jun 2024 19:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:08:45.583724
- Title: Voice Disorder Analysis: a Transformer-based Approach
- Title(参考訳): 音声障害分析 : 変圧器を用いたアプローチ
- Authors: Alkis Koudounas, Gabriele Ciravegna, Marco Fantini, Giovanni Succo, Erika Crosetti, Tania Cerquitelli, Elena Baralis,
- Abstract要約: 本稿では,生音声信号を直接処理するトランスフォーマーを用いた新しいソリューションを提案する。
文読解や持続母音の発声など,多くの記録タイプを同時に検討する。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示した。
- 参考スコア(独自算出の注目度): 10.003909936239742
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Voice disorders are pathologies significantly affecting patient quality of life. However, non-invasive automated diagnosis of these pathologies is still under-explored, due to both a shortage of pathological voice data, and diversity of the recording types used for the diagnosis. This paper proposes a novel solution that adopts transformers directly working on raw voice signals and addresses data shortage through synthetic data generation and data augmentation. Further, we consider many recording types at the same time, such as sentence reading and sustained vowel emission, by employing a Mixture of Expert ensemble to align the predictions on different data types. The experimental results, obtained on both public and private datasets, show the effectiveness of our solution in the disorder detection and classification tasks and largely improve over existing approaches.
- Abstract(参考訳): 音声障害は患者の生活の質に大きな影響を及ぼす病態である。
しかし,これらの疾患の非侵襲的自動診断は,病的音声データ不足と診断に使用される記録型の多様性の両方から,まだ未発見である。
本稿では、生音声信号を直接処理するトランスフォーマーを採用し、合成データ生成とデータ拡張によるデータ不足に対処する新しいソリューションを提案する。
さらに,テキスト読取や持続母音の発声など,多くの記録型を専門家のアンサンブルを用いて同時に検討し,その予測を異なるデータ型に整合させる。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示し、既存のアプローチよりも大幅に改善された。
関連論文リスト
- Early Recognition of Parkinson's Disease Through Acoustic Analysis and Machine Learning [0.0]
パーキンソン病(英: Parkinson's Disease、PD)は、音声を含む運動機能と非運動機能の両方に大きな影響を及ぼす進行性神経変性疾患である。
本稿では,音声データを用いたPD認識手法の総合的なレビューを行い,機械学習とデータ駆動アプローチの進歩を強調した。
ロジスティック回帰、SVM、ニューラルネットワークなど、さまざまな分類アルゴリズムが検討されている。
以上の結果から,特定の音響特性と高度な機械学習技術は,PDと健常者の間で効果的に区別できることが示唆された。
論文 参考訳(メタデータ) (2024-07-22T23:24:02Z) - Selfsupervised learning for pathological speech detection [0.0]
音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。
これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。
ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
論文 参考訳(メタデータ) (2024-05-16T07:12:47Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Sample selection with noise rate estimation in noise learning of medical image analysis [3.9934250802854376]
本稿では,ノイズの多いデータセットでトレーニングされた場合のニューラルネットワークの性能を向上させる新しいサンプル選択手法を提案する。
本手法では,線形回帰を用いて損失値の分布を解析することにより,データセットの雑音率を推定する。
モデルのノイズ堅牢性をさらに高めるために,スパース正規化を採用している。
論文 参考訳(メタデータ) (2023-12-23T11:57:21Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - Data Augmentation for Dementia Detection in Spoken Language [1.7324358447544175]
最近のディープラーニング技術はより高速な診断を提供し、有望な結果を示している。
それらは大量のラベル付きデータを必要としており、認知症検出のタスクでは簡単には利用できない。
スパースデータ問題に対する効果的な解決策の1つは、データ拡張であるが、正確なメソッドを慎重に選択する必要がある。
論文 参考訳(メタデータ) (2022-06-26T13:40:25Z) - Learning from Multiple Expert Annotators for Enhancing Anomaly Detection
in Medical Image Analysis [0.31317409221921133]
医用画像解析において、複数の専門家アノテータは「地上の真実ラベル」に関する主観的な推定をしばしば生成する。
深層学習に基づく検知器の訓練のために,複数の放射線学の専門家によるアノテーションを組み合わせた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-20T17:57:26Z) - Improving Medical Image Classification with Label Noise Using
Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。
医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-28T14:56:45Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。