論文の概要: WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model
- arxiv url: http://arxiv.org/abs/2406.18731v1
- Date: Wed, 26 Jun 2024 19:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 16:06:39.729300
- Title: WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model
- Title(参考訳): WavRx: 病原性、一般化可能、およびプライバシ保護型音声健康診断モデル
- Authors: Yi Zhu, Tiago Falk,
- Abstract要約: WavRxは、普遍的な音声表現から呼吸と調音関連ダイナミクスをキャプチャする音声健康診断モデルである。
我々は,WavRxヘルス埋め込みに係わる話者アイデンティティの量は,トレーニング中に追加指導なしで有意に減少することを示した。
- 参考スコア(独自算出の注目度): 9.662041290667316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is known to carry health-related attributes, which has emerged as a novel venue for remote and long-term health monitoring. However, existing models are usually tailored for a specific type of disease, and have been shown to lack generalizability across datasets. Furthermore, concerns have been raised recently towards the leakage of speaker identity from health embeddings. To mitigate these limitations, we propose WavRx, a speech health diagnostics model that captures the respiration and articulation related dynamics from a universal speech representation. Our in-domain and cross-domain experiments on six pathological speech datasets demonstrate WavRx as a new state-of-the-art health diagnostic model. Furthermore, we show that the amount of speaker identity entailed in the WavRx health embeddings is significantly reduced without extra guidance during training. An in-depth analysis of the model was performed, thus providing physiological interpretation of its improved generalizability and privacy-preserving ability.
- Abstract(参考訳): 音声は、遠隔および長期の健康モニタリングのための新しい場所として登場した健康関連属性を持つことが知られている。
しかしながら、既存のモデルは、通常特定の種類の疾患に合わせて調整されており、データセット間での一般化性が欠如していることが示されている。
さらに、健康な埋め込みから話者の身元が漏洩するという懸念も最近持ち上がっている。
これらの制約を緩和するために,普遍的な音声表現から呼吸・調音関連ダイナミクスを捉える音声健康診断モデルWavRxを提案する。
6つの病的音声データセットのドメイン内およびクロスドメイン実験は、新しい最先端の健康診断モデルとして、WavRxを実証している。
さらに,WavRxヘルス埋め込みにおける話者識別の量は,トレーニング中に追加指導を受けることなく有意に減少することを示した。
モデルの詳細分析を行い、その改良された一般化可能性とプライバシ保護能力の生理学的解釈を提供した。
関連論文リスト
- Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning [33.9544297423474]
873kの胸部X線で自己監督によって訓練された大型ビジュアルエンコーダであるRayDinoについて紹介する。
我々はレイディーノと過去の9つの放射線学課題における最先端モデルを比較し、分類と密分化からテキスト生成までについて述べる。
以上の結果から,患者中心型AIがX線の臨床・解釈に有用であることが示唆された。
論文 参考訳(メタデータ) (2024-05-02T16:59:10Z) - Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。
これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文 参考訳(メタデータ) (2024-02-10T16:16:24Z) - CheX-Nomaly: Segmenting Lung Abnormalities from Chest Radiographs using
Machine Learning [0.0]
本稿では,二元化ローカライズU-netモデルであるCheX-nomalyを提案する。
対照的な学習手法を取り入れることで,異常局所化モデルの一般化性を大幅に向上できることを示す。
また,バウンディングボックスセグメンテーションにおけるU-nets性能を向上させるために,新たな損失手法を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:27:57Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - ExBEHRT: Extended Transformer for Electronic Health Records to Predict
Disease Subtypes & Progressions [0.0]
BEHRT(BERT)の拡張版であるExBEHRTを紹介する。
特徴空間は, 人口統計, 臨床的特徴, バイタルサイン, 喫煙状況, 診断, 処置, 薬品, 実験室検査など, 複数のマルチモーダル記録に拡張する。
異なる疾患における下流タスクのモデル性能は,追加機能により有意に向上することを示した。
論文 参考訳(メタデータ) (2023-03-22T08:03:27Z) - The effect of speech pathology on automatic speaker verification -- a
large-scale study [6.468412158245622]
病的スピーチは 健康なスピーチに比べて プライバシー侵害のリスクが高まっています
ディスフォニアの成人は再識別のリスクが高まる一方、ディスフォニアのような症状は健康な話者に匹敵する結果をもたらす。
病理型間でデータをマージすると、EERは著しく低下し、自動話者検証における病理多様性の潜在的利点が示唆された。
論文 参考訳(メタデータ) (2022-04-13T15:17:00Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。