論文の概要: WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model
- arxiv url: http://arxiv.org/abs/2406.18731v1
- Date: Wed, 26 Jun 2024 19:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 16:06:39.729300
- Title: WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model
- Title(参考訳): WavRx: 病原性、一般化可能、およびプライバシ保護型音声健康診断モデル
- Authors: Yi Zhu, Tiago Falk,
- Abstract要約: WavRxは、普遍的な音声表現から呼吸と調音関連ダイナミクスをキャプチャする音声健康診断モデルである。
我々は,WavRxヘルス埋め込みに係わる話者アイデンティティの量は,トレーニング中に追加指導なしで有意に減少することを示した。
- 参考スコア(独自算出の注目度): 9.662041290667316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is known to carry health-related attributes, which has emerged as a novel venue for remote and long-term health monitoring. However, existing models are usually tailored for a specific type of disease, and have been shown to lack generalizability across datasets. Furthermore, concerns have been raised recently towards the leakage of speaker identity from health embeddings. To mitigate these limitations, we propose WavRx, a speech health diagnostics model that captures the respiration and articulation related dynamics from a universal speech representation. Our in-domain and cross-domain experiments on six pathological speech datasets demonstrate WavRx as a new state-of-the-art health diagnostic model. Furthermore, we show that the amount of speaker identity entailed in the WavRx health embeddings is significantly reduced without extra guidance during training. An in-depth analysis of the model was performed, thus providing physiological interpretation of its improved generalizability and privacy-preserving ability.
- Abstract(参考訳): 音声は、遠隔および長期の健康モニタリングのための新しい場所として登場した健康関連属性を持つことが知られている。
しかしながら、既存のモデルは、通常特定の種類の疾患に合わせて調整されており、データセット間での一般化性が欠如していることが示されている。
さらに、健康な埋め込みから話者の身元が漏洩するという懸念も最近持ち上がっている。
これらの制約を緩和するために,普遍的な音声表現から呼吸・調音関連ダイナミクスを捉える音声健康診断モデルWavRxを提案する。
6つの病的音声データセットのドメイン内およびクロスドメイン実験は、新しい最先端の健康診断モデルとして、WavRxを実証している。
さらに,WavRxヘルス埋め込みにおける話者識別の量は,トレーニング中に追加指導を受けることなく有意に減少することを示した。
モデルの詳細分析を行い、その改良された一般化可能性とプライバシ保護能力の生理学的解釈を提供した。
関連論文リスト
- Self-Explaining Hypergraph Neural Networks for Diagnosis Prediction [45.89562183034469]
既存のディープラーニング診断予測モデルと本質的な解釈性は、過去の診断や病院訪問の度に注意重みを割り当てることが多い。
我々は、パーソナライズされた簡潔で忠実な説明を提供するように設計された、自己説明型ハイパーグラフニューラルネットワークモデルSHyを紹介する。
SHyは高次疾患の相互作用を捉え、パーソナライズされた説明として異なる時間的表現型を抽出する。
論文 参考訳(メタデータ) (2025-02-15T06:33:02Z) - NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。
分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。
説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文 参考訳(メタデータ) (2025-02-14T12:09:49Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning [33.9544297423474]
873kの胸部X線で自己監督によって訓練された大型ビジュアルエンコーダであるRayDinoについて紹介する。
我々はレイディーノと過去の9つの放射線学課題における最先端モデルを比較し、分類と密分化からテキスト生成までについて述べる。
以上の結果から,患者中心型AIがX線の臨床・解釈に有用であることが示唆された。
論文 参考訳(メタデータ) (2024-05-02T16:59:10Z) - Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。
これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文 参考訳(メタデータ) (2024-02-10T16:16:24Z) - The effect of speech pathology on automatic speaker verification -- a
large-scale study [6.468412158245622]
病的スピーチは 健康なスピーチに比べて プライバシー侵害のリスクが高まっています
ディスフォニアの成人は再識別のリスクが高まる一方、ディスフォニアのような症状は健康な話者に匹敵する結果をもたらす。
病理型間でデータをマージすると、EERは著しく低下し、自動話者検証における病理多様性の潜在的利点が示唆された。
論文 参考訳(メタデータ) (2022-04-13T15:17:00Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。