論文の概要: Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection
- arxiv url: http://arxiv.org/abs/2211.09858v1
- Date: Thu, 17 Nov 2022 19:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:24:10.318683
- Title: Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection
- Title(参考訳): 発声音声検出のためのロバストな声質特徴埋め込み
- Authors: Jianwei Zhang, Julie Liss, Suren Jayasuriya, and Visar Berisha
- Abstract要約: 声質に敏感な音響特徴埋め込みを生成するためのディープラーニングフレームワークを提案する。
対照的な損失は、分類損失と組み合わせて、ディープラーニングモデルを共同で訓練する。
実験結果から,本手法は高いインコーパスとクロスコーパスの分類精度を実現することが示された。
- 参考スコア(独自算出の注目度): 22.413475757518682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximately 1.2% of the world's population has impaired voice production.
As a result, automatic dysphonic voice detection has attracted considerable
academic and clinical interest. However, existing methods for automated voice
assessment often fail to generalize outside the training conditions or to other
related applications. In this paper, we propose a deep learning framework for
generating acoustic feature embeddings sensitive to vocal quality and robust
across different corpora. A contrastive loss is combined with a classification
loss to train our deep learning model jointly. Data warping methods are used on
input voice samples to improve the robustness of our method. Empirical results
demonstrate that our method not only achieves high in-corpus and cross-corpus
classification accuracy but also generates good embeddings sensitive to voice
quality and robust across different corpora. We also compare our results
against three baseline methods on clean and three variations of deteriorated
in-corpus and cross-corpus datasets and demonstrate that the proposed model
consistently outperforms the baseline methods.
- Abstract(参考訳): 世界の人口の約1.2%が音声生産に支障をきたしている。
その結果,自動発声音声検出は学術的,臨床的にかなりの関心を集めている。
しかし,既存の音声自動評価手法では,訓練条件外や関連するアプリケーションへの一般化に失敗することが多い。
本稿では,声質に敏感で異なるコーパスにまたがる頑健な音響特徴を組み込んだディープラーニングフレームワークを提案する。
対照的な損失は、分類損失と組み合わせて、ディープラーニングモデルを共同で訓練する。
本手法の堅牢性を向上させるため,入力音声サンプルにデータワープ手法を用いた。
実験結果から,本手法は高いコーパスとクロスコーパスの分類精度を達成するだけでなく,声質に敏感な埋め込みや,異なるコーパス間の堅牢性も生み出すことが示された。
また, 劣化したインコーパスとクロスコーパスデータセットの3種類のベースライン法と比較し, 提案モデルがベースライン法より一貫して優れていることを示す。
関連論文リスト
- Voice Disorder Analysis: a Transformer-based Approach [10.003909936239742]
本稿では,生音声信号を直接処理するトランスフォーマーを用いた新しいソリューションを提案する。
文読解や持続母音の発声など,多くの記録タイプを同時に検討する。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示した。
論文 参考訳(メタデータ) (2024-06-20T19:29:04Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Robust Medical Image Classification from Noisy Labeled Data with Global
and Local Representation Guided Co-training [73.60883490436956]
本稿では,ロバストな医用画像分類のためのグローバルおよびローカルな表現学習を用いた新しい協調学習パラダイムを提案する。
ノイズラベルフィルタを用いた自己アンサンブルモデルを用いて、クリーンでノイズの多いサンプルを効率的に選択する。
また,ネットワークを暗黙的に正規化してノイズの多いサンプルを利用するための,グローバルかつ局所的な表現学習手法を設計する。
論文 参考訳(メタデータ) (2022-05-10T07:50:08Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Adversarial attacks on audio source separation [26.717340178640498]
音源分離問題に対する様々な逆攻撃手法を再構成する。
そこで本研究では,非知覚的対向雑音を得るための簡易かつ効果的な正則化法を提案する。
また,ブラックボックス攻撃に対するソース分離モデルの堅牢性を示す。
論文 参考訳(メタデータ) (2020-10-07T05:02:21Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z) - Learning Not to Learn in the Presence of Noisy Labels [104.7655376309784]
ギャンブラーの損失と呼ばれる新しい種類の損失関数は、様々なレベルの汚職にまたがってノイズをラベル付けするのに強い堅牢性をもたらすことを示す。
この損失関数によるトレーニングは、ノイズのあるラベルを持つデータポイントでの学習を"維持"することをモデルに促すことを示す。
論文 参考訳(メタデータ) (2020-02-16T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。