Fugu-MT 論文翻訳(概要): CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech

論文の概要: CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech

arxiv url: http://arxiv.org/abs/2407.13660v1
Date: Thu, 18 Jul 2024 16:38:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 14:02:17.425134
Title: CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech
Title（参考訳）: CogniVoice:自然発話による軽度認知障害評価のための多モーダル・多言語融合ネットワーク
Authors: Jiali Cheng, Mohamed Elgaar, Nidhi Vakil, Hadi Amiri,
Abstract要約: 音声データとそのテキストの書き起こしを分析し,MMSE(Mini-Mental State Examination)スコアの検出と推定を行う新しいフレームワークであるCogniVoiceを紹介した。 TAUKADIALチャレンジから英語と中国語の両方を含む包括的なデータセットを使用して、CogniVoiceはMCI分類とMMSE回帰タスクにおける最高のパフォーマンスベースラインモデルより優れている。
参考スコア（独自算出の注目度）: 17.86808831223983
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Mild Cognitive Impairment (MCI) is a medical condition characterized by noticeable declines in memory and cognitive abilities, potentially affecting individual's daily activities. In this paper, we introduce CogniVoice, a novel multilingual and multimodal framework to detect MCI and estimate Mini-Mental State Examination (MMSE) scores by analyzing speech data and its textual transcriptions. The key component of CogniVoice is an ensemble multimodal and multilingual network based on ``Product of Experts'' that mitigates reliance on shortcut solutions. Using a comprehensive dataset containing both English and Chinese languages from TAUKADIAL challenge, CogniVoice outperforms the best performing baseline model on MCI classification and MMSE regression tasks by 2.8 and 4.1 points in F1 and RMSE respectively, and can effectively reduce the performance gap across different language groups by 0.7 points in F1.
Abstract（参考訳）: 軽度認知障害 (MCI) は、記憶力や認知能力の顕著な低下が特徴で、個人の日常生活に影響を及ぼす可能性がある。本稿では,MCIを検出する新しい多言語・マルチモーダルフレームワークであるCogniVoiceを紹介し,音声データとそのテキストの書き起こしを分析し,MMSE(Mini-Mental State Examination)スコアを推定する。 CogniVoiceの重要なコンポーネントは、ショートカットソリューションへの依存を緩和する ``Product of Experts'' に基づくアンサンブルマルチモーダルおよびマルチ言語ネットワークである。 TAUKADIALチャレンジから英語と中国語の両方を含む包括的なデータセットを用いて、CogniVoiceは、MCI分類およびMMSE回帰タスクにおいて、それぞれF1およびRMSEの2.8ポイントと4.1ポイントの最高のパフォーマンスベースラインモデルより優れており、異なる言語グループ間のパフォーマンスギャップをF1の0.7ポイントに効果的に低減することができる。

関連論文リスト

Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation [12.090488308404765]
異なる言語やタスクでトレーニングされたモデルを効率的に統合するテクニックであるLoRS-Mergingを紹介する。 LoRS-Mergingは、従来のマルチタスクトレーニングベースラインと比較して、単語エラー率を10%削減し、BLEUスコアを4%改善する。
論文参考訳（メタデータ） (2025-02-24T18:06:57Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
大規模言語モデル(LLM)が多言語事実知識をどのように表すかを検討する。異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロンと呼ばれる共有ニューロンの集合を活性化する。そこで本研究では,言語非依存のFactual Neurons (LAFN) を探索・修正し,多言語知識を同時に編集する新しいMKE法を提案する。
論文参考訳（メタデータ） (2024-06-24T08:06:56Z)
Developing a Multilingual Dataset and Evaluation Metrics for Code-Switching: A Focus on Hong Kong's Polylingual Dynamics [0.5700195008916903]
我々は,Multi-Agent Data Generation Framework (MADGF) を用いた混合カントンと英語(MCE)音声の34.8時間データセットを開発した。我々は,オープンソースの多言語自動音声認識(ASR)モデルであるWhisperをMCEデータセットで微調整し,印象的なゼロショット性能を実現した。
論文参考訳（メタデータ） (2023-10-27T08:01:55Z)
FonMTL: Towards Multitask Learning for the Fon Language [1.9370453715137865]
本稿では,Fon言語のための自然言語処理におけるモデル機能向上のための,マルチタスク学習のための最初の爆発的アプローチを提案する。我々は2つの言語モデルヘッドをエンコーダとして利用して入力の共有表現を構築し,各タスクに対して線形層ブロックを用いて分類する。 Fon の NER および POS タスクの結果は,複数言語で事前訓練された言語モデルに対して,単一タスクで微調整された言語モデルと比較して,競争力(あるいはより優れた)性能を示す。
論文参考訳（メタデータ） (2023-08-28T03:26:21Z)
Integrating Knowledge in End-to-End Automatic Speech Recognition for Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文参考訳（メタデータ） (2021-12-19T17:31:15Z)
Is Attention always needed? A Case Study on Language Identification from Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。 CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。 LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文参考訳（メタデータ） (2021-10-05T16:38:57Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)
Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。 AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文参考訳（メタデータ） (2020-10-15T18:34:13Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)
Learning not to Discriminate: Task Agnostic Learning for Improving Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文参考訳（メタデータ） (2020-06-09T13:45:30Z)
Knowledge Distillation for Multilingual Unsupervised Neural Machine Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。 UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文参考訳（メタデータ） (2020-04-21T17:26:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。