Fugu-MT 論文翻訳(概要): Acoustic-to-articulatory inversion for dysarthric speech: Are pre-trained self-supervised representations favorable?

論文の概要: Acoustic-to-articulatory inversion for dysarthric speech: Are pre-trained self-supervised representations favorable?

arxiv url: http://arxiv.org/abs/2309.01108v4
Date: Fri, 9 Feb 2024 23:01:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 22:30:33.355704
Title: Acoustic-to-articulatory inversion for dysarthric speech: Are pre-trained self-supervised representations favorable?
Title（参考訳）: 変形性関節症に対する音響-調音インバージョン:事前訓練による自己指導的表現は好ましいか?
Authors: Sarthak Kumar Maharana, Krishna Kamal Adidam, Shoumik Nandi, Ajitesh Srivastava
Abstract要約: 音響-調音インバージョン(AAI)は、音響から調音空間へのマッピングを伴う。本研究では,事前に訓練された自己教師付き学習(SSL)モデルの表現を用いて,変形性音声に対するAAIを実行する。
参考スコア（独自算出の注目度）: 3.43759997215733
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Acoustic-to-articulatory inversion (AAI) involves mapping from the acoustic to the articulatory space. Signal-processing features like the MFCCs, have been widely used for the AAI task. For subjects with dysarthric speech, AAI is challenging because of an imprecise and indistinct pronunciation. In this work, we perform AAI for dysarthric speech using representations from pre-trained self-supervised learning (SSL) models. We demonstrate the impact of different pre-trained features on this challenging AAI task, at low-resource conditions. In addition, we also condition x-vectors to the extracted SSL features to train a BLSTM network. In the seen case, we experiment with three AAI training schemes (subject-specific, pooled, and fine-tuned). The results, consistent across training schemes, reveal that DeCoAR, in the fine-tuned scheme, achieves a relative improvement of the Pearson Correlation Coefficient (CC) by ~1.81% and ~4.56% for healthy controls and patients, respectively, over MFCCs. We observe similar average trends for different SSL features in the unseen case. Overall, SSL networks like wav2vec, APC, and DeCoAR, trained with feature reconstruction or future timestep prediction tasks, perform well in predicting dysarthric articulatory trajectories.
Abstract（参考訳）: aai (a acoustic-to-articulatory inversion) は、音響から調音空間へのマッピングである。 MFCCのような信号処理機能は、AAIタスクに広く使われている。変形性発声者にとって、AAIは不正確で不明瞭な発音のため困難である。本研究では,事前学習型自己教師付き学習(ssl)モデルを用いて,構音障害児のaaiを行う。我々は、この挑戦的なAAIタスクに対する様々な事前訓練された機能の影響を、低リソース環境で実証する。さらに、抽出したSSL機能にxベクトルを条件として、BLSTMネットワークをトレーニングする。実例では、3つのAIトレーニングスキーム(オブジェクト固有、プール化、微調整)を実験する。トレーニングスキーム間で一貫した結果、DeCoARは、微調整スキームにおいて、健康管理と患者のそれぞれに対して、パーソン相関係数(Pearson correlation Coefficient, CC)を ~1.81% と ~4.56% で相対的に改善することを明らかにする。見えないケースでは、SSLのさまざまな機能について、同様の平均トレンドを観察します。全体として、機能再構築や将来のタイムステップ予測タスクでトレーニングされたwav2vec、APC、DeCoARといったSSLネットワークは、変形性関節軌跡の予測にうまく機能する。

関連論文リスト

Self-Supervised Learning for Speaker Recognition: A study and review [0.0]
SSL(Self-Supervised Learning)は、膨大な量のラベルのないデータを活用して、関連する表現を学習する、有望なパラダイムとして登場した。 SSL for Automatic Speech Recognition (ASR) の応用は広く研究されているが、他の下流タスク、特に話者認識(SR)の研究はまだ初期段階にある。この研究は、最近のトレンドと進歩を強調し、この分野における現在の課題を特定することを目的としている。
論文参考訳（メタデータ） (2026-02-11T13:16:07Z)
Extremely Simple Out-of-distribution Detection for Audio-visual Generalized Zero-shot Learning [84.02184773383732]
ゼロショット学習は、補助カテゴリー情報を探ることで、見知らぬクラスから見つからないクラスへの知識伝達を可能にする。本稿では,AV-GZSL法(EZ-AVOOD)を応用し,バイアス問題を緩和する極めて単純なアウト・オブ・ディストリビューション(OOD)検出手法を提案する。既存の最先端手法と比較して、我々のモデルは3つのオーディオ視覚データセット上でのZSLとGZSLの性能に優れていた。
論文参考訳（メタデータ） (2025-03-28T07:28:56Z)
Recognition of Dysarthria in Amyotrophic Lateral Sclerosis patients using Hypernetworks [7.182245711235296]
変形の認識にハイパーネットを取り入れた最初の研究について述べる。具体的には、オーディオファイルを使用し、それをlog-Mel Spectrogram、delta、delta-deltaに変換し、トレーニング済みの修正AlexNetモデルに渡します。その結果,提案手法の精度は82.66%に向上した。
論文参考訳（メタデータ） (2025-02-27T15:57:37Z)
Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing [19.205671029694074]
自己教師付き学習(SSL)基盤モデルは、強力でドメインに依存しない汎用的特徴抽出器として登場した。本稿では,動物発声に直接事前学習したSSLモデルが,事前学習した音声に対して有意な優位性をもたらすかどうかを考察する。
論文参考訳（メタデータ） (2025-01-10T14:18:21Z)
Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文参考訳（メタデータ） (2024-11-01T19:11:54Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。 DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文参考訳（メタデータ） (2024-07-03T08:33:39Z)
Automatic Prediction of Amyotrophic Lateral Sclerosis Progression using Longitudinal Speech Transformer [56.17737749551133]
ニューラルネットワークを用いたALS病進行自動予測器であるALS長手音声変換器(ALST)を提案する。録音における高品質な事前訓練音声特徴と長手情報を活用することで、最良のモデルが91.0%のAUCを達成できる。 ALSTはALS進行の細粒度で解釈可能な予測が可能で、特に稀な症例と重篤な症例の区別が可能である。
論文参考訳（メタデータ） (2024-06-26T13:28:24Z)
Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文参考訳（メタデータ） (2023-05-19T05:39:41Z)
Evidence of Vocal Tract Articulation in Self-Supervised Learning of Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。 EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文参考訳（メタデータ） (2022-10-21T04:24:29Z)
Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文参考訳（メタデータ） (2022-06-21T06:08:30Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文参考訳（メタデータ） (2022-03-19T08:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。