論文の概要: Self-supervised representations in speech-based depression detection
- arxiv url: http://arxiv.org/abs/2305.12263v1
- Date: Sat, 20 May 2023 18:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:30:14.311306
- Title: Self-supervised representations in speech-based depression detection
- Title(参考訳): 音声による抑うつ検出における自己教師付き表現
- Authors: Wen Wu, Chao Zhang, Philip C. Woodland
- Abstract要約: 本稿では,自己教師付き学習(SSL)を事前学習した基礎モデルを用いて,音声による自動抑うつ検出(SDD)における訓練データの空間性を扱うことを提案する。
事前訓練された基礎モデルの異なる層から派生したSSL表現をSDD向けに初めて提示する。
次に、基礎モデルの微調整により、自動音声認識(ASR)と感情認識からSDDへの知識伝達を行う。
- 参考スコア(独自算出の注目度): 17.26466867595571
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes handling training data sparsity in speech-based automatic
depression detection (SDD) using foundation models pre-trained with
self-supervised learning (SSL). An analysis of SSL representations derived from
different layers of pre-trained foundation models is first presented for SDD,
which provides insight to suitable indicator for depression detection.
Knowledge transfer is then performed from automatic speech recognition (ASR)
and emotion recognition to SDD by fine-tuning the foundation models. Results
show that the uses of oracle and ASR transcriptions yield similar SDD
performance when the hidden representations of the ASR model is incorporated
along with the ASR textual information. By integrating representations from
multiple foundation models, state-of-the-art SDD results based on real ASR were
achieved on the DAIC-WOZ dataset.
- Abstract(参考訳): 本稿では,自己教師付き学習(ssl)による基礎モデルを用いた音声自動抑うつ検出(sdd)における学習データのスパーシティの取り扱いを提案する。
予め訓練された基礎モデルの異なる層から派生したSSL表現をSDDで解析し、うつ病検出に適した指標の洞察を提供する。
次に、基礎モデルの微調整により、自動音声認識(ASR)と感情認識からSDDへの知識伝達を行う。
その結果,asrモデルの隠れた表現とasrのテキスト情報とが組み合わさった場合,oracle と asr の書き起こしが同様の sdd 性能をもたらすことがわかった。
複数の基礎モデルから表現を統合することで、DAIC-WOZデータセット上で実際のASRに基づく最先端SDD結果が得られた。
関連論文リスト
- On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures [19.823015917720284]
音声認識学習における合成データの有用性について検討する。
我々は、元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。
トレーニングスコアが過度な適合を示す場合であっても,TTSモデルの一般化は良好であることを示す。
論文 参考訳(メタデータ) (2024-07-25T12:44:45Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - Background Debiased SAR Target Recognition via Causal Interventional
Regularizer [13.49307175561975]
認識すべきSAR画像は、前景(すなわち、ターゲット)だけでなく、背景領域の一定の大きさも含んでいることを示す。
このことは、背景の存在は、DLモデルがターゲットに関する追加のセマンティック情報を学ぶ能力を妨げていることを示唆している。
本稿では,因果介入に基づく正規化手法を提案する。
論文 参考訳(メタデータ) (2023-08-30T02:56:55Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Analyzing the factors affecting usefulness of Self-Supervised
Pre-trained Representations for Speech Recognition [1.0705399532413615]
高レベルの音声表現を学習するための自己教師付き学習(SSL)は、音声認識システムを構築するための一般的なアプローチである。
ドメイン、言語、データセットサイズ、および上流のトレーニング済みSSLデータに対するその他の側面が、最終性能の低リソースのASRタスクに与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-31T11:48:24Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。