論文の概要: Multimodal Depression Classification Using Articulatory Coordination
Features And Hierarchical Attention Based Text Embeddings
- arxiv url: http://arxiv.org/abs/2202.06238v1
- Date: Sun, 13 Feb 2022 07:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:17:35.782883
- Title: Multimodal Depression Classification Using Articulatory Coordination
Features And Hierarchical Attention Based Text Embeddings
- Title(参考訳): 調音コーディネーション特徴と階層的注意に基づくテキスト埋め込みを用いたマルチモーダル抑うつ分類
- Authors: Nadee Seneviratne, Carol Espy-Wilson
- Abstract要約: 声道変数とテキストの書き起こしから抽出した動脈協調機能を用いたマルチモーダルうつ病分類システムを開発した。
このシステムはセッションレベルの音声モデルとHANテキストモデルからの埋め込みを組み合わせることで開発される。
- 参考スコア(独自算出の注目度): 4.050982413149992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal depression classification has gained immense popularity over the
recent years. We develop a multimodal depression classification system using
articulatory coordination features extracted from vocal tract variables and
text transcriptions obtained from an automatic speech recognition tool that
yields improvements of area under the receiver operating characteristics curve
compared to uni-modal classifiers (7.5% and 13.7% for audio and text
respectively). We show that in the case of limited training data, a
segment-level classifier can first be trained to then obtain a session-wise
prediction without hindering the performance, using a multi-stage convolutional
recurrent neural network. A text model is trained using a Hierarchical
Attention Network (HAN). The multimodal system is developed by combining
embeddings from the session-level audio model and the HAN text model
- Abstract(参考訳): マルチモーダルうつ病の分類は近年、大きな人気を集めている。
声道変数から抽出した調音コーディネート特徴を用いたマルチモーダル抑うつ分類システムと、音声とテキストのそれぞれ7.5%と13.7%)に比べて受信者の動作特性曲線下の領域を改善する自動音声認識ツールから得られたテキスト転写を用いたマルチモーダル抑うつ分類システムを開発した。
制限されたトレーニングデータの場合、セグメントレベルの分類器をトレーニングし、マルチステージ畳み込み型畳み込み型リカレントニューラルネットワークを用いて、パフォーマンスを損なうことなくセッション毎の予測を行うことができる。
テキストモデルは階層的注意ネットワーク(HAN)を用いて訓練される。
セッションレベルの音声モデルとHANテキストモデルからの埋め込みを組み合わせたマルチモーダルシステムの開発
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Unsupervised Improvement of Audio-Text Cross-Modal Representations [19.960695758478153]
本研究では、教師なしのテキストと音声を用いて、そのような表現の学習フレームワークを改善するための教師なしのアプローチについて研究する。
ドメイン固有のキュレーションをソフトラベル付きコントラスト損失と併用することで、ゼロショット分類性能において大幅な改善が得られることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:30:46Z) - A knowledge-driven vowel-based approach of depression classification
from speech using data augmentation [10.961439164833891]
音声からの抑うつを識別する新しい機械学習モデルを提案する。
提案手法はまず,局所レベルにおける可変長発話を固定サイズの母音ベース埋め込みにモデル化する。
うつ病は、別の1D CNNの入力として機能する母音CNN埋め込みのグループから世界レベルで分類される。
論文 参考訳(メタデータ) (2022-10-27T08:34:08Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multi-Dialect Arabic Speech Recognition [0.0]
本稿では,アラビア語に対する多言語自動音声認識の設計と開発について述べる。
ディープニューラルネットワークは、シーケンシャルなデータ問題を解決する効果的なツールになりつつある。
提案方式は14%の誤差率を達成し, 従来のシステムより優れていた。
論文 参考訳(メタデータ) (2021-12-25T20:55:57Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。