論文の概要: Speech Tasks Relevant to Sleepiness Determined with Deep Transfer
Learning
- arxiv url: http://arxiv.org/abs/2111.14684v1
- Date: Mon, 29 Nov 2021 16:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 16:24:40.008132
- Title: Speech Tasks Relevant to Sleepiness Determined with Deep Transfer
Learning
- Title(参考訳): ディープトランスファー学習による眠気関連音声課題の検討
- Authors: Bang Tran, Youxiang Zhu, Xiaohui Liang, James W. Schwoebel, Lindsay A.
Warrenburg
- Abstract要約: 注意を要する文脈での過度な眠気は、自動車事故などの有害事象を引き起こすことがある。
本稿では、Voiceomeデータセットを用いて、1,828人の参加者から音声を抽出し、HuBERT(Hidden-Unit BERT)音声表現を用いた深層移動学習モデルを構築し、個人の眠気を検出する。
- 参考スコア(独自算出の注目度): 4.051599961895359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Excessive sleepiness in attention-critical contexts can lead to adverse
events, such as car crashes. Detecting and monitoring sleepiness can help
prevent these adverse events from happening. In this paper, we use the Voiceome
dataset to extract speech from 1,828 participants to develop a deep transfer
learning model using Hidden-Unit BERT (HuBERT) speech representations to detect
sleepiness from individuals. Speech is an under-utilized source of data in
sleep detection, but as speech collection is easy, cost-effective, and
non-invasive, it provides a promising resource for sleepiness detection. Two
complementary techniques were conducted in order to seek converging evidence
regarding the importance of individual speech tasks. Our first technique,
masking, evaluated task importance by combining all speech tasks, masking
selected responses in the speech, and observing systematic changes in model
accuracy. Our second technique, separate training, compared the accuracy of
multiple models, each of which used the same architecture, but was trained on a
different subset of speech tasks. Our evaluation shows that the best-performing
model utilizes the memory recall task and categorical naming task from the
Boston Naming Test, which achieved an accuracy of 80.07% (F1-score of 0.85) and
81.13% (F1-score of 0.89), respectively.
- Abstract(参考訳): 注意を要する文脈での過度な眠気は、自動車事故などの有害事象を引き起こすことがある。
眠気の検出とモニタリングは、これらの有害事象の発生を防ぐのに役立つ。
本稿では,1,828名の参加者から音声を抽出し,隠れ単位のbert(hubert)音声表現を用いた深層伝達学習モデルを構築し,個人から眠気を検知する。
音声は睡眠検出において未利用のデータ源であるが、音声収集は簡単で費用対効果が高く、非侵襲であるため、睡眠検出のための有望なリソースを提供する。
個別の発話課題の重要性に関するエビデンスをまとめるために、2つの補完的手法が実施された。
最初の手法であるマスキングは、全ての音声タスクを組み合わせ、選択された音声応答をマスキングし、モデル精度の体系的変化を観察することでタスクの重要性を評価する。
第2のテクニックである分離トレーニングでは,複数のモデルの精度を比較して,それぞれが同じアーキテクチャを使用していたが,音声タスクの異なるサブセットでトレーニングした。
評価の結果,ボストン・ネーミング・テストにおけるメモリリコール・タスクとカテゴリ名付けのタスクは,それぞれ80.07% (f1-score: 0.85) と81.13% (f1-score: 0.89) の精度を達成した。
関連論文リスト
- Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - UPB at SemEval-2021 Task 7: Adversarial Multi-Task Learning for
Detecting and Rating Humor and Offense [0.6404122934568858]
本稿では, 敵のマルチタスクネットワークであるAMTL-Humorを用いて, ユーモアや攻撃的テキストの検出と評価を行う。
私達の最もよいモデルはすべてのテストされた構成のアンサンブルから成り、95.66% F1スコアおよびタスク1aのための94.70%の正確さを達成します。
論文 参考訳(メタデータ) (2021-04-13T09:59:05Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。