論文の概要: CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech
- arxiv url: http://arxiv.org/abs/2407.13660v1
- Date: Thu, 18 Jul 2024 16:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:02:17.425134
- Title: CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech
- Title(参考訳): CogniVoice:自然発話による軽度認知障害評価のための多モーダル・多言語融合ネットワーク
- Authors: Jiali Cheng, Mohamed Elgaar, Nidhi Vakil, Hadi Amiri,
- Abstract要約: 音声データとそのテキストの書き起こしを分析し,MMSE(Mini-Mental State Examination)スコアの検出と推定を行う新しいフレームワークであるCogniVoiceを紹介した。
TAUKADIALチャレンジから英語と中国語の両方を含む包括的なデータセットを使用して、CogniVoiceはMCI分類とMMSE回帰タスクにおける最高のパフォーマンスベースラインモデルより優れている。
- 参考スコア(独自算出の注目度): 17.86808831223983
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mild Cognitive Impairment (MCI) is a medical condition characterized by noticeable declines in memory and cognitive abilities, potentially affecting individual's daily activities. In this paper, we introduce CogniVoice, a novel multilingual and multimodal framework to detect MCI and estimate Mini-Mental State Examination (MMSE) scores by analyzing speech data and its textual transcriptions. The key component of CogniVoice is an ensemble multimodal and multilingual network based on ``Product of Experts'' that mitigates reliance on shortcut solutions. Using a comprehensive dataset containing both English and Chinese languages from TAUKADIAL challenge, CogniVoice outperforms the best performing baseline model on MCI classification and MMSE regression tasks by 2.8 and 4.1 points in F1 and RMSE respectively, and can effectively reduce the performance gap across different language groups by 0.7 points in F1.
- Abstract(参考訳): 軽度認知障害 (MCI) は、記憶力や認知能力の顕著な低下が特徴で、個人の日常生活に影響を及ぼす可能性がある。
本稿では,MCIを検出する新しい多言語・マルチモーダルフレームワークであるCogniVoiceを紹介し,音声データとそのテキストの書き起こしを分析し,MMSE(Mini-Mental State Examination)スコアを推定する。
CogniVoiceの重要なコンポーネントは、ショートカットソリューションへの依存を緩和する ``Product of Experts'' に基づくアンサンブルマルチモーダルおよびマルチ言語ネットワークである。
TAUKADIALチャレンジから英語と中国語の両方を含む包括的なデータセットを用いて、CogniVoiceは、MCI分類およびMMSE回帰タスクにおいて、それぞれF1およびRMSEの2.8ポイントと4.1ポイントの最高のパフォーマンスベースラインモデルより優れており、異なる言語グループ間のパフォーマンスギャップをF1の0.7ポイントに効果的に低減することができる。
関連論文リスト
- Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロン(LAFN)と呼ばれる共有ニューロンの集合を活性化する。
これらのニューロンは言語間で共有されるのと同じ事実知識を表しており、多言語知識間の意味的関連を示唆している。
言語非依存のFactual Neurons(LU-LAFN)を位置決め・更新することで,多言語知識を同時に編集する新しいMKE法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:06:56Z) - FonMTL: Towards Multitask Learning for the Fon Language [1.9370453715137865]
本稿では,Fon言語のための自然言語処理におけるモデル機能向上のための,マルチタスク学習のための最初の爆発的アプローチを提案する。
我々は2つの言語モデルヘッドをエンコーダとして利用して入力の共有表現を構築し,各タスクに対して線形層ブロックを用いて分類する。
Fon の NER および POS タスクの結果は,複数言語で事前訓練された言語モデルに対して,単一タスクで微調整された言語モデルと比較して,競争力(あるいはより優れた)性能を示す。
論文 参考訳(メタデータ) (2023-08-28T03:26:21Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文 参考訳(メタデータ) (2020-06-09T13:45:30Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。