論文の概要: Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context
- arxiv url: http://arxiv.org/abs/2403.20184v1
- Date: Fri, 29 Mar 2024 13:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:34:34.135010
- Title: Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context
- Title(参考訳): ASR駆動型Wav2Vec2を用いたデータスカース文脈における病的音声品質評価
- Authors: Tuan Nguyen, Corinne Fredouille, Alain Ghio, Mathieu Balaguer, Virginie Woisard,
- Abstract要約: 本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。
その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
- 参考スコア(独自算出の注目度): 7.567181073057191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech quality assessment has raised more attention as an alternative or support to traditional perceptual clinical evaluation. However, most research so far only gains good results on simple tasks such as binary classification, largely due to data scarcity. To deal with this challenge, current works tend to segment patients' audio files into many samples to augment the datasets. Nevertheless, this approach has limitations, as it indirectly relates overall audio scores to individual segments. This paper introduces a novel approach where the system learns at the audio level instead of segments despite data scarcity. This paper proposes to use the pre-trained Wav2Vec2 architecture for both SSL, and ASR as feature extractor in speech assessment. Carried out on the HNC dataset, our ASR-driven approach established a new baseline compared with other approaches, obtaining average $MSE=0.73$ and $MSE=1.15$ for the prediction of intelligibility and severity scores respectively, using only 95 training samples. It shows that the ASR based Wav2Vec2 model brings the best results and may indicate a strong correlation between ASR and speech quality assessment. We also measure its ability on variable segment durations and speech content, exploring factors influencing its decision.
- Abstract(参考訳): 音声品質の自動評価は、従来の知覚的臨床評価の代替や支援として注目されている。
しかし、これまでのほとんどの研究は、データ不足のため、バイナリ分類のような単純なタスクにおいて、良い結果しか得られていない。
この課題に対処するため、現在の研究は患者のオーディオファイルを多くのサンプルに分割してデータセットを拡大する傾向にある。
それでもこのアプローチには制限があり、オーディオスコアを個々のセグメントに間接的に関連付ける。
本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。
本稿では,SSL と ASR の両方に事前学習した Wav2Vec2 アーキテクチャを特徴抽出器として用いることを提案する。
HNCデータセットに基づいて、我々のASR駆動のアプローチは、他のアプローチと比較して新しいベースラインを確立し、95のトレーニングサンプルを使用して、平均$MSE=0.73$と$MSE=1.15$を得た。
その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
また,変化セグメントの持続時間と音声内容に基づいて,その決定に影響を与える要因を探索する。
関連論文リスト
- Exploring ASR-Based Wav2Vec2 for Automated Speech Disorder Assessment: Insights and Analysis [7.567181073057191]
Wav2Vec2 ASRベースのモデルは、自動音声認識品質評価タスクのために微調整されている。
本稿では,音声品質評価のためのベースラインモデルの最初の解析を行い,知能度と重大度タスクに着目した。
論文 参考訳(メタデータ) (2024-10-10T13:12:17Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - CPM: Class-conditional Prompting Machine for Audio-visual Segmentation [17.477225065057993]
CPM(Class-conditional Prompting Machine)は,クラス非依存クエリとクラス条件クエリを組み合わせた学習戦略により,双方向マッチングを改善した。
我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
論文 参考訳(メタデータ) (2024-07-07T13:20:21Z) - Coordinated Sparse Recovery of Label Noise [2.9495895055806804]
本研究は、ラベルノイズがインスタンス依存であるロバストな分類タスクに焦点を当てる。
協調スパース回収法(CSR)を提案する。
CSRは、モデル予測とノイズ回復を調整するために、協調行列と信頼重みを導入し、エラーリークを低減する。
CSRに基づいて,共同サンプル選択戦略を設計し,CSR+と呼ばれる包括的で強力な学習フレームワークを構築した。
論文 参考訳(メタデータ) (2024-04-07T03:41:45Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。