論文の概要: Meta-Learning Approaches for Speaker-Dependent Voice Fatigue Models
- arxiv url: http://arxiv.org/abs/2505.23378v1
- Date: Thu, 29 May 2025 11:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.840878
- Title: Meta-Learning Approaches for Speaker-Dependent Voice Fatigue Models
- Title(参考訳): 話者依存型音声疲労モデルに対するメタラーニングアプローチ
- Authors: Roseline Polle, Agnes Norbury, Alexandra Livia Georgescu, Nicholas Cummins, Stefano Goria,
- Abstract要約: 我々は,この課題をメタ学習問題として再考し,複雑さを増大させる3つのアプローチを探る。
事前学習した音声埋め込みを用いて、シフトワーカーの大規模な縦長データセット上でこれらの手法を評価する。
その結果,全てのメタラーニング手法が横断的および従来型の混合効果モデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 45.81793540247952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker-dependent modelling can substantially improve performance in speech-based health monitoring applications. While mixed-effect models are commonly used for such speaker adaptation, they require computationally expensive retraining for each new observation, making them impractical in a production environment. We reformulate this task as a meta-learning problem and explore three approaches of increasing complexity: ensemble-based distance models, prototypical networks, and transformer-based sequence models. Using pre-trained speech embeddings, we evaluate these methods on a large longitudinal dataset of shift workers (N=1,185, 10,286 recordings), predicting time since sleep from speech as a function of fatigue, a symptom commonly associated with ill-health. Our results demonstrate that all meta-learning approaches tested outperformed both cross-sectional and conventional mixed-effects models, with a transformer-based method achieving the strongest performance.
- Abstract(参考訳): 話者依存型モデリングは、音声ベースの健康モニタリングアプリケーションの性能を大幅に向上させることができる。
このような話者適応には混合効果モデルが一般的に使用されるが、新しい観測ごとに計算コストがかかるため、生産環境では実用的ではない。
本稿では,この課題をメタラーニング問題として再検討し,アンサンブルベース距離モデル,プロトタイプネットワーク,トランスフォーマーベースシーケンスモデルという,複雑さを増大させる3つのアプローチを提案する。
プレトレーニング音声埋め込みを用いて、これらの手法を大規模なシフトワーカーのデータセット(N=1,185, 10,286記録)で評価し、疲労機能としての音声からの睡眠時間を予測する。
その結果,全てのメタラーニング手法がクロスセクションおよび従来の混合効果モデルよりも優れており,トランスフォーマーを用いた手法が最強性能を実現していることがわかった。
関連論文リスト
- Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing [19.205671029694074]
自己教師付き学習(SSL)基盤モデルは、強力でドメインに依存しない汎用的特徴抽出器として登場した。
本稿では,動物発声に直接事前学習したSSLモデルが,事前学習した音声に対して有意な優位性をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2025-01-10T14:18:21Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - End-to-End Speech Recognition and Disfluency Removal with Acoustic
Language Model Pretraining [0.0]
2段階モデルとエンドツーエンドモデルのパフォーマンス比較を再考する。
弱自己教師対象を用いて事前訓練された音声ベース言語モデルは、同様に訓練された2段階モデルの性能に適合するか、超えていることがわかった。
論文 参考訳(メタデータ) (2023-09-08T17:12:14Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - DDKtor: Automatic Diadochokinetic Speech Analysis [13.68342426889044]
本稿では,無表記・無転写音声から子音と母音を自動的に分離する2つのディープニューラルネットワークモデルを提案する。
若い健康な個人のデータセットの結果から、LSTMモデルは現在の最先端システムよりも優れています。
LSTMモデルは、パーキンソン病データセットの未確認高齢者を対象に、訓練されたヒトアノテータに匹敵する結果を提示する。
論文 参考訳(メタデータ) (2022-06-29T13:34:03Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Self-Supervised Learning from Contrastive Mixtures for Personalized
Speech Enhancement [19.645016575334786]
この研究は、話者固有の特徴を発見するために、自己教師付き学習を普遍的に利用する方法を探求する。
ノイズの多いデータをその場しのぎの訓練対象として扱う,単純なコントラスト学習手法を開発した。
論文 参考訳(メタデータ) (2020-11-06T15:21:00Z) - A Spectral Energy Distance for Parallel Speech Synthesis [29.14723501889278]
音声合成は重要な実用的生成モデル問題である。
そこで本研究では,高度に並列な音声モデルの学習を可能にする学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-03T19:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。