論文の概要: Transfer Learning from Whisper for Microscopic Intelligibility Prediction
- arxiv url: http://arxiv.org/abs/2404.01737v1
- Date: Tue, 2 Apr 2024 08:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 17:18:56.661474
- Title: Transfer Learning from Whisper for Microscopic Intelligibility Prediction
- Title(参考訳): マイクロインテリジェンス予測のためのウィスパーからの伝達学習
- Authors: Paul Best, Santiago Cuervo, Ricard Marxer,
- Abstract要約: 最先端のマクロモデルでは,大規模深層学習モデルからの伝達学習を用いて音声処理を行う。
音声認識のための最先端深層学習モデルであるWhisperからの伝達学習を顕微鏡的インテリジェンス予測に利用することを検討した。
- 参考スコア(独自算出の注目度): 3.5717176646955777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Macroscopic intelligibility models predict the expected human word-error-rate for a given speech-in-noise stimulus. In contrast, microscopic intelligibility models aim to make fine-grained predictions about listeners' perception, e.g. predicting phonetic or lexical responses. State-of-the-art macroscopic models use transfer learning from large scale deep learning models for speech processing, whereas such methods have rarely been used for microscopic modeling. In this paper, we study the use of transfer learning from Whisper, a state-of-the-art deep learning model for automatic speech recognition, for microscopic intelligibility prediction at the level of lexical responses. Our method outperforms the considered baselines, even in a zero-shot setup, and yields a relative improvement of up to 66\% when fine-tuned to predict listeners' responses. Our results showcase the promise of large scale deep learning based methods for microscopic intelligibility prediction.
- Abstract(参考訳): マクロ的インテリジェンスモデルは、与えられた音声刺激に対する人間の単語エラー率を予測する。
対照的に、微視的インテリジェンスモデルは、聞き手の知覚を微妙に予測することを目的としており、例えば、音声応答や語彙応答を予測している。
最先端のマクロモデルでは,大規模深層学習モデルからの伝達学習を音声処理に用いているが,このような手法は顕微鏡モデリングにはほとんど使われていない。
本稿では,音声認識のための最先端ディープラーニングモデルであるWhisperからの伝達学習を用いて,語彙応答のレベルでの微視的インテリジェンス予測を行う。
提案手法は,ゼロショット設定においても,検討されたベースラインよりも優れており,聴取者の応答を微調整した場合の相対的改善率は66\%である。
この結果から,大規模深層学習による微視的インテリジェンス予測の可能性が示された。
関連論文リスト
- Interpreting Pretrained Speech Models for Automatic Speech Assessment of Voice Disorders [0.8796261172196743]
我々は、音声障害検出の文脈において、オーディオスペクトログラム変換器の2つの構成を訓練し比較する。
本研究では,モデルが予測を行うときのスペクトル領域の計算的関連性であるモデル関連性マップを作成するために,アテンションロールアウト手法を適用した。
我々はこれらのマップを用いて、モデルが異なる条件下でどのように予測を行うかを分析し、モデルが微調整されるにつれて注意の拡散が減少することを示す。
論文 参考訳(メタデータ) (2024-06-29T21:14:48Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - A Lightweight Generative Model for Interpretable Subject-level Prediction [0.07989135005592125]
本稿では,本質的に解釈可能な単一対象予測手法を提案する。
実験により、結果のモデルを効率よく逆転させ、正確な主観レベルの予測を行うことが示されている。
論文 参考訳(メタデータ) (2023-06-19T18:20:29Z) - Explaining Hate Speech Classification with Model Agnostic Methods [0.9990687944474738]
本研究の目的は、ヘイトスピーチ予測と、その決定を支援するためにシステムによって生成された説明とのギャップを埋めることである。
これは、まずテキストの分類を予測し、その後、ポストホック、モデル非依存、代理的解釈可能性アプローチを提供することによって達成されている。
論文 参考訳(メタデータ) (2023-05-30T19:52:56Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Few-shot Learning in Emotion Recognition of Spontaneous Speech Using a
Siamese Neural Network with Adaptive Sample Pair Formation [11.592365534228895]
本稿では,少数のラベル付きサンプルから自然発話中の感情を自動的に認識するための,数発の学習手法を提案する。
ほとんどショットラーニングは、シアムニューラルネットワークを介してメトリックラーニングアプローチによって実装されている。
その結果,4つのデータセットにおける自発音声からの感情認識におけるメトリック学習の有効性が示唆された。
論文 参考訳(メタデータ) (2021-09-07T08:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。