論文の概要: Phonological Subspace Collapse Is Aetiology-Specific and Cross-Lingually Stable: Evidence from 3,374 Speakers
- arxiv url: http://arxiv.org/abs/2604.21706v1
- Date: Thu, 23 Apr 2026 14:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.586643
- Title: Phonological Subspace Collapse Is Aetiology-Specific and Cross-Lingually Stable: Evidence from 3,374 Speakers
- Title(参考訳): 音韻的部分空間の崩壊は、エトロジーに特有で言語横断的に安定している:3,374人の話者による証拠
- Authors: Bernard Muller, Antonio Armando Ortiz Barrañón, LaVonne Roberts,
- Abstract要約: HuBERTをベースとした5言語890話者を対象にした音韻的特徴部分空間に基づく難聴度評価のためのトレーニングフリーフレームワーク。
12言語および5言語にまたがる25言語話者の分析(パーキンソン病、脳性麻痺、ALSダウン症候群、脳卒中)
代表標本における言語間プロファイル形状と安定性のクロスバックボーン
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We previously introduced a training-free method for dysarthria severity assessment based on d-prime separability of phonological feature subspaces in frozen self-supervised speech representations, validated on 890 speakers across 5 languages with HuBERT-base. Here, we scale the analysis to 3,374 speakers from 25 datasets spanning 12 languages and 5 aetiologies (Parkinson's disease, cerebral palsy, ALS, Down syndrome, and stroke), plus healthy controls, using 6 SSL backbones. We report three findings. First, aetiology-specific degradation profiles are distinguishable at the group level: 10 of 13 features yield large effect sizes (epsilon-squared > 0.14, Holm-corrected p < 0.001), with Parkinson's disease separable from the articulatory execution group at Cohen's d = 0.83; individual-level classification remains limited (22.6% macro F1). Second, profiles show cross-lingual profile-shape stability: cosine similarity of 5-dimensional consonant d-prime profiles exceeds 0.95 across the languages available for each aetiology. Absolute d-prime magnitudes are not cross-lingually calibrated, so the method supports language-independent phenotyping of degradation patterns but requires within-corpus calibration for absolute severity interpretation. Third, the method is architecture-independent: all 6 backbones produce monotonic severity gradients with inter-model agreement exceeding rho = 0.77. Fixed-token d-prime estimation preserves the severity correlation (rho = -0.733 at 200 tokens per class), confirming that the signal is not a token-count artefact. These results support phonological subspace analysis as a robust, training-free framework for aetiology-aware dysarthria characterisation, with evidence of cross-lingual profile-shape stability and cross-backbone robustness in the represented sample.
- Abstract(参考訳): 凍結自己教師型音声表現における音韻特徴部分空間のd-prime分離性に基づく難聴度評価のトレーニングを,HuBERTベース5言語890話者を対象に実施した。
そこで本研究では,12言語と5つのエチオロジー(パーキンソン病,脳性麻痺,ALS,ダウンシンドローム,脳卒中)にまたがる25のデータセットから3,374人の話者に,SSLバックボーンを6つ使用して解析を行った。
我々は3つの発見を報告した。
第一に、エトロジー特異的な劣化プロファイルはグループレベルで識別可能である:13の特徴のうち10は大きな効果サイズ(エプシロン二乗法>0.14、ホルム補正法 p < 0.001)を生じるが、パーキンソン病はコーエンのd = 0.83の調音実行群から分離可能であり、個々のレベルの分類は限定的である(マクロF1の22.6%)。
第二に、プロファイルは言語間プロファイル形状の安定性を示す: 5次元子音d-プライムプロファイルのコサイン類似性は、各エチオロジーで利用可能な言語で0.95以上である。
絶対的なd-プライム等級は言語横断的に校正されないため、劣化パターンの言語非依存表現型化をサポートするが、絶対重大度解釈には体内校正が必要である。
第三に、この手法はアーキテクチャ非依存であり、すべての6つのバックボーンは、rho = 0.77を超えるモデル間合意を持つ単調な重度勾配を生成する。
固定トークンd-prime推定は、深刻度相関(rho = -0.733 at 200 tokens per class)を保ち、信号がトークン数アーチファクトではないことを確認する。
これらの結果は, 音韻的部分空間解析を, 耳鼻咽喉頭機能評価のための頑健で無訓練の枠組みとして支持するものである。
関連論文リスト
- Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models [0.0]
GPT-4.1、Gemini 2.5 Flash、Claude Sonnet 4.6は、20回の臨床シナリオで処方薬を作成した。
GPT-4.1 (0.955), Gemini 2.5 Flash (0.950), Claude Sonnet 4.6 (0.903)
GPT-4.1は完全にユニークな出力(100%)を安定なセマンティックコンテンツで生成し、Gemini 2.5 Flashは顕著な出力繰り返し(27.5%のユニークな出力)を示した。
論文 参考訳(メタデータ) (2026-04-21T15:51:46Z) - Training-Free Cross-Lingual Dysarthria Severity Assessment via Phonological Subspace Analysis in Self-Supervised Speech Representations [0.0]
変形性言語重度評価は通常、ラベル付き病的音声から構築された教師付きモデルを必要とする。
音韻的特徴部分空間の劣化を測定することにより, 難聴度を定量化する訓練自由手法を提案する。
教師付き重度モデルは訓練されず、健常な制御音声から特徴方向を推定する。
論文 参考訳(メタデータ) (2026-04-11T09:38:35Z) - DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects [6.107850985025956]
本稿では,50の英語方言における偽情報検出のための最初のベンチマークであるDIA-HARMを提案する。
人間による方言の含有量は1.4-3.6%減少し、一方でAI生成された内容は安定している。
私たちはDIA-HARMフレームワーク、D3コーパス、評価ツールをリリースします。
論文 参考訳(メタデータ) (2026-04-07T01:43:48Z) - Adapting Self-Supervised Speech Representations for Cross-lingual Dysarthria Detection in Parkinson's Disease [72.0406069194794]
音声表現は、しばしば言語に依存した構造を符号化する。
本稿では,ソース言語による自己教師型音声表現とターゲット言語分布とを一致させる表現レベル言語シフトを提案する。
チェコ語,ドイツ語,スペイン語におけるパーキンソン病音声データセットの経口DDK記録に対するアプローチについて検討した。
論文 参考訳(メタデータ) (2026-03-23T17:23:39Z) - Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech [69.86604856129883]
外科的音声品質評価(DSQA)は臨床診断と包括的音声技術において重要である。
本研究では,未ラベルの変形音声と大規模典型的な音声データセットを併用した3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-16T23:00:07Z) - Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech [14.936023751079654]
アルツハイマー病と認知症は進行性神経変性疾患である。
自発音声には、非侵襲的なバイオマーカーとして機能する豊富な音響マーカーと言語マーカーが含まれている。
大規模オーディオまたはテキストデータに基づいて事前訓練された基礎モデルは、文脈的および音響的特徴を符号化した高次元埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-09T17:52:31Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。