論文の概要: Mixture of Experts for Recognizing Depression from Interview and Reading Tasks
- arxiv url: http://arxiv.org/abs/2502.20213v1
- Date: Thu, 27 Feb 2025 15:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:25.973708
- Title: Mixture of Experts for Recognizing Depression from Interview and Reading Tasks
- Title(参考訳): インタビュー・読解課題における抑うつの認識の専門家の混在
- Authors: Loukas Ilias, Dimitris Askounis,
- Abstract要約: うつ病は精神疾患であり、心理的、身体的、社会的など様々な症状を引き起こすことがある。
本研究は,自発音声と読み音声の両方を表現できる抑うつ認識タスクにおける最初の研究である。
我々は,因子化に基づく3種類のMoE,すなわち疎化MoEと多線形MoEを用いる。
- 参考スコア(独自算出の注目度): 7.182245711235296
- License:
- Abstract: Depression is a mental disorder and can cause a variety of symptoms, including psychological, physical, and social. Speech has been proved an objective marker for the early recognition of depression. For this reason, many studies have been developed aiming to recognize depression through speech. However, existing methods rely on the usage of only the spontaneous speech neglecting information obtained via read speech, use transcripts which are often difficult to obtain (manual) or come with high word-error rates (automatic), and do not focus on input-conditional computation methods. To resolve these limitations, this is the first study in depression recognition task obtaining representations of both spontaneous and read speech, utilizing multimodal fusion methods, and employing Mixture of Experts (MoE) models in a single deep neural network. Specifically, we use audio files corresponding to both interview and reading tasks and convert each audio file into log-Mel spectrogram, delta, and delta-delta. Next, the image representations of the two tasks pass through shared AlexNet models. The outputs of the AlexNet models are given as input to a multimodal fusion method. The resulting vector is passed through a MoE module. In this study, we employ three variants of MoE, namely sparsely-gated MoE and multilinear MoE based on factorization. Findings suggest that our proposed approach yields an Accuracy and F1-score of 87.00% and 86.66% respectively on the Androids corpus.
- Abstract(参考訳): うつ病は精神疾患であり、心理的、身体的、社会的など様々な症状を引き起こすことがある。
抑うつの早期認識の客観的指標として音声が証明されている。
このため、音声による抑うつの認識を目的とした研究が数多く行われている。
しかし、既存の手法では、読み上げ音声によって得られる自発的な音声無視情報のみを利用でき、しばしば入手が困難(手動)な書き起こしや、高い単語エラー率(オートマチック)を持つ書き起こしを用いており、入力条件の計算方法に重点を置いていない。
これらの制限を解決するために、この研究は、自然発声と読み上げ音声の両方の表現を取得し、マルチモーダル融合法を利用し、1つのディープニューラルネットワークでMixture of Experts(MoE)モデルを採用する、うつ病認識タスクにおける最初の研究である。
具体的には、インタビューと読書の両方に対応する音声ファイルを使用し、各音声ファイルを対数メルスペクトル、デルタ、デルタに変換する。
次に、2つのタスクの画像表現が共有のAlexNetモデルを通過する。
AlexNetモデルの出力はマルチモーダル融合法への入力として与えられる。
生成されたベクターはMoEモジュールに渡される。
本研究では,因子化に基づく3種類のMoE,すなわち疎ゲート型MoEと多線形MoEを用いる。
提案手法では,Android コーパスでそれぞれ87.00%,86.66%の精度とF1スコアが得られた。
関連論文リスト
- Context-Aware Deep Learning for Multi Modal Depression Detection [41.02897689721331]
マルチモーダル機械学習(ML)を用いた臨床面接からうつ病を自動的に検出するアプローチに焦点をあてる。
本研究では,(1)テキストデータに対するトピックモデリングに基づくデータ拡張と,(2)音響特徴モデリングのための深部1次元畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。
我々のディープ1D CNNとトランスフォーマーモデルはそれぞれ、オーディオとテキストのモダリティの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-12-26T13:19:26Z) - Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - Context-aware attention layers coupled with optimal transport domain
adaptation and multimodal fusion methods for recognizing dementia from
spontaneous speech [0.0]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の主要な原因である複雑な神経認知疾患である。
そこで本研究では,AD患者検出のための新しい手法を提案する。
ADReSSとADReSSo Challengeで実施した実験は、既存の研究イニシアチブに対して導入したアプローチの有効性を示している。
論文 参考訳(メタデータ) (2023-05-25T18:18:09Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Multimodal Depression Severity Prediction from medical bio-markers using
Machine Learning Tools and Technologies [0.0]
うつ病は世界中の精神疾患の主要な原因となっている。
近年,うつ病の診断とステージ予測の自動化に行動的手がかりが用いられている。
ラベル付き行動データセットの欠如と、膨大な量のバリエーションが、タスクを達成する上で大きな課題であることが証明されている。
論文 参考訳(メタデータ) (2020-09-11T20:44:28Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。