論文の概要: Adapting Self-Supervised Speech Representations for Cross-lingual Dysarthria Detection in Parkinson's Disease
- arxiv url: http://arxiv.org/abs/2603.22225v1
- Date: Mon, 23 Mar 2026 17:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.809312
- Title: Adapting Self-Supervised Speech Representations for Cross-lingual Dysarthria Detection in Parkinson's Disease
- Title(参考訳): パーキンソン病における言語横断性変形性関節症に対する自己監督型音声表現の適応
- Authors: Abner Hernandez, Eunjung Yeo, Kwanghee Choi, Chin-Jou Li, Zhengjun Yue, Rohan Kumar Das, Jan Rusz, Mathew Magimai Doss, Juan Rafael Orozco-Arroyave, Tomás Arias-Vergara, Andreas Maier, Elmar Nöth, David R. Mortensen, David Harwath, Paula Andrea Perez-Toro,
- Abstract要約: 音声表現は、しばしば言語に依存した構造を符号化する。
本稿では,ソース言語による自己教師型音声表現とターゲット言語分布とを一致させる表現レベル言語シフトを提案する。
チェコ語,ドイツ語,スペイン語におけるパーキンソン病音声データセットの経口DDK記録に対するアプローチについて検討した。
- 参考スコア(独自算出の注目度): 72.0406069194794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The limited availability of dysarthric speech data makes cross-lingual detection an important but challenging problem. A key difficulty is that speech representations often encode language-dependent structure that can confound dysarthria detection. We propose a representation-level language shift (LS) that aligns source-language self-supervised speech representations with the target-language distribution using centroid-based vector adaptation estimated from healthy-control speech. We evaluate the approach on oral DDK recordings from Parkinson's disease speech datasets in Czech, German, and Spanish under both cross-lingual and multilingual settings. LS substantially improves sensitivity and F1 in cross-lingual settings, while yielding smaller but consistent gains in multilingual settings. Representation analysis further shows that LS reduces language identity in the embedding space, supporting the interpretation that LS removes language-dependent structure.
- Abstract(参考訳): 変形性音声データの可用性に制限があるため、言語間検出は重要な問題であるが難しい問題である。
重要な難点は、言語依存構造を符号化する言語表現が、嫌がらせ検出を妨害することがあることである。
健常音声から推定されるセントロイドベクター適応を用いて、ソース言語による自己教師型音声表現とターゲット言語分布とを一致させる表現レベル言語シフト(LS)を提案する。
チェコ語,ドイツ語,スペイン語におけるパーキンソン病音声データセットの経口DDK記録に対するアプローチを,言語横断的,多言語的に評価した。
LSは言語間設定での感度とF1を大幅に改善し、マルチ言語設定では小さいが一貫した利得が得られる。
表現解析により、LSは埋め込み空間における言語アイデンティティを減少させ、LSが言語依存構造を取り除くという解釈を支持することが示される。
関連論文リスト
- Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks [4.911970211082446]
言語間の言語間相互作用を定量化するための体系的手法であるCLTM(Cross-Lingual Transfer Matrix)を提案する。
我々は,多言語HuBERTエンコーダを用いて,ジェンダー識別と話者検証という2つのパラ言語課題にCLTMを適用した。
この結果から,タスクや言語間の異なる伝達パターンが明らかとなり,言語に依存した系統的な影響が反映された。
論文 参考訳(メタデータ) (2026-03-09T11:02:57Z) - When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Revisiting Modality Invariance in a Multilingual Speech-Text Model via Neuron-Level Analysis [15.638379666159127]
言語とモダリティの情報を符号化した場所、選択的ニューロンがデコードにどのように影響するか、そしてこの影響がネットワーク全体にどの程度集中しているかについて検討する。
我々は,平均精度ランキングを用いて言語選択性ニューロンとモダリティ選択性ニューロンを同定し,その機能的役割を推定時に中心的置換介入を用いて検討し,言語とモダリティ間のアクティベーション・マグニチュードの不平等を解析した。
論文 参考訳(メタデータ) (2026-01-24T09:22:18Z) - SwasthLLM: a Unified Cross-Lingual, Multi-Task, and Meta-Learning Zero-Shot Framework for Medical Diagnosis Using Contrastive Representations [0.4077787659104315]
SwasthLLMは、医用診断のための統一、ゼロショット、クロスランガル、マルチタスク学習フレームワークである。
英語、ヒンディー語、ベンガル語で、言語固有の微調整を必要としない。
SwasthLLMは97.22%、F1スコア97.17%という高い診断性能を達成している。
論文 参考訳(メタデータ) (2025-09-24T21:20:49Z) - CLAIM: Mitigating Multilingual Object Hallucination in Large Vision-Language Models with Cross-Lingual Attention Intervention [56.08815340137881]
LVLM(Large Vision-Language Models)は、印象的なマルチモーダル能力を示したが、多言語オブジェクト幻覚の傾向は残っていない。
LVLMにおける多言語オブジェクト幻覚(CLAIM)の緩和のための言語横断的注意介入を提案する。
論文 参考訳(メタデータ) (2025-06-03T11:17:16Z) - Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文 参考訳(メタデータ) (2025-05-20T20:03:45Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。