論文の概要: Optimizing Speech-Input Length for Speaker-Independent Depression Classification
- arxiv url: http://arxiv.org/abs/2501.00608v1
- Date: Tue, 31 Dec 2024 19:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:14.007967
- Title: Optimizing Speech-Input Length for Speaker-Independent Depression Classification
- Title(参考訳): 話者非依存型抑うつ分類における音声入力長の最適化
- Authors: Tomasz Rutowski, Amir Harati, Yang Lu, Elizabeth Shriberg,
- Abstract要約: 1400時間以上の音声のコーパスを用いた話者非依存型抑うつ分類の結果を,ヒト・機械健康スクリーニングアプリケーションを用いて分析した。
総合的な性能が異なる2つのNLPシステムの応答入力長関数としての性能について検討する。
- 参考スコア(独自算出の注目度): 7.964705052507324
- License:
- Abstract: Machine learning models for speech-based depression classification offer promise for health care applications. Despite growing work on depression classification, little is understood about how the length of speech-input impacts model performance. We analyze results for speaker-independent depression classification using a corpus of over 1400 hours of speech from a human-machine health screening application. We examine performance as a function of response input length for two NLP systems that differ in overall performance. Results for both systems show that performance depends on natural length, elapsed length, and ordering of the response within a session. Systems share a minimum length threshold, but differ in a response saturation threshold, with the latter higher for the better system. At saturation it is better to pose a new question to the speaker, than to continue the current response. These and additional reported results suggest how applications can be better designed to both elicit and process optimal input lengths for depression classification.
- Abstract(参考訳): 音声に基づく抑うつ分類のための機械学習モデルは、ヘルスケアの応用を約束する。
抑うつ分類の研究が増えているにもかかわらず、音声入力の長さがモデルの性能に与える影響についてはほとんど理解されていない。
1400時間以上の音声のコーパスを用いた話者非依存型抑うつ分類の結果を,ヒト・機械健康スクリーニングアプリケーションを用いて分析した。
総合的な性能が異なる2つのNLPシステムの応答入力長関数としての性能について検討する。
どちらのシステムも、パフォーマンスは自然の長さ、経過した長さ、セッション内の応答の順序に依存する。
システムは最小長閾値を共有するが、応答飽和閾値が異なる。
飽和時には、現在の応答を継続するよりも、スピーカーに新しい質問をする方がよい。
これらおよびさらに報告された結果は、うつ病分類のための最適な入力長の抽出とプロセスの両方にアプリケーションをどのように設計するかを示唆している。
関連論文リスト
- Robust Speech and Natural Language Processing Models for Depression Screening [0.0]
うつ病は世界的な健康上の問題であり、患者スクリーニングの強化が不可欠である。
この目的のために開発された2つのディープラーニングモデルについて述べる。
1つのモデルは音響に基づいており、もう1つは自然言語処理に基づいている。
論文 参考訳(メタデータ) (2024-12-26T06:05:52Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - A knowledge-driven vowel-based approach of depression classification
from speech using data augmentation [10.961439164833891]
音声からの抑うつを識別する新しい機械学習モデルを提案する。
提案手法はまず,局所レベルにおける可変長発話を固定サイズの母音ベース埋め込みにモデル化する。
うつ病は、別の1D CNNの入力として機能する母音CNN埋め込みのグループから世界レベルで分類される。
論文 参考訳(メタデータ) (2022-10-27T08:34:08Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Segment Aggregation for short utterances speaker verification using raw
waveforms [47.41124427552161]
本稿では,短い発話に対する話者検証の性能劣化を補う手法を提案する。
提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。
論文 参考訳(メタデータ) (2020-05-07T08:57:22Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。