論文の概要: WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model
- arxiv url: http://arxiv.org/abs/2406.18731v1
- Date: Wed, 26 Jun 2024 19:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-28 16:06:39.729300
- Title: WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model
- Title(参考訳): WavRx: 病原性、一般化可能、およびプライバシ保護型音声健康診断モデル
- Authors: Yi Zhu, Tiago Falk,
- Abstract要約: WavRxは、普遍的な音声表現から呼吸と調音関連ダイナミクスをキャプチャする音声健康診断モデルである。
我々は,WavRxヘルス埋め込みに係わる話者アイデンティティの量は,トレーニング中に追加指導なしで有意に減少することを示した。
- 参考スコア(独自算出の注目度): 9.662041290667316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is known to carry health-related attributes, which has emerged as a novel venue for remote and long-term health monitoring. However, existing models are usually tailored for a specific type of disease, and have been shown to lack generalizability across datasets. Furthermore, concerns have been raised recently towards the leakage of speaker identity from health embeddings. To mitigate these limitations, we propose WavRx, a speech health diagnostics model that captures the respiration and articulation related dynamics from a universal speech representation. Our in-domain and cross-domain experiments on six pathological speech datasets demonstrate WavRx as a new state-of-the-art health diagnostic model. Furthermore, we show that the amount of speaker identity entailed in the WavRx health embeddings is significantly reduced without extra guidance during training. An in-depth analysis of the model was performed, thus providing physiological interpretation of its improved generalizability and privacy-preserving ability.
- Abstract(参考訳): 音声は、遠隔および長期の健康モニタリングのための新しい場所として登場した健康関連属性を持つことが知られている。
しかしながら、既存のモデルは、通常特定の種類の疾患に合わせて調整されており、データセット間での一般化性が欠如していることが示されている。
さらに、健康な埋め込みから話者の身元が漏洩するという懸念も最近持ち上がっている。
これらの制約を緩和するために,普遍的な音声表現から呼吸・調音関連ダイナミクスを捉える音声健康診断モデルWavRxを提案する。
6つの病的音声データセットのドメイン内およびクロスドメイン実験は、新しい最先端の健康診断モデルとして、WavRxを実証している。
さらに,WavRxヘルス埋め込みにおける話者識別の量は,トレーニング中に追加指導を受けることなく有意に減少することを示した。
モデルの詳細分析を行い、その改良された一般化可能性とプライバシ保護能力の生理学的解釈を提供した。
関連論文リスト
- Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。
本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文 参考訳(メタデータ) (2025-04-20T01:54:18Z) - AutoRad-Lung: A Radiomic-Guided Prompting Autoregressive Vision-Language Model for Lung Nodule Malignancy Prediction [5.736781475109306]
肺がんは、世界中でがん関連死亡の原因の1つとなっている。
臨床実践では、放射線技師はCT画像から抽出した定量的で手作りの放射線学的特徴に頼っている。
本稿では,手作りラジオミクスから発生するプロンプトと,自己回帰的に事前訓練されたVLMを結合したAutoRad-Lungを紹介する。
論文 参考訳(メタデータ) (2025-03-26T15:56:48Z) - Self-Explaining Hypergraph Neural Networks for Diagnosis Prediction [45.89562183034469]
既存のディープラーニング診断予測モデルと本質的な解釈性は、過去の診断や病院訪問の度に注意重みを割り当てることが多い。
我々は、パーソナライズされた簡潔で忠実な説明を提供するように設計された、自己説明型ハイパーグラフニューラルネットワークモデルSHyを紹介する。
SHyは高次疾患の相互作用を捉え、パーソナライズされた説明として異なる時間的表現型を抽出する。
論文 参考訳(メタデータ) (2025-02-15T06:33:02Z) - NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。
分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。
説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文 参考訳(メタデータ) (2025-02-14T12:09:49Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning [33.9544297423474]
873kの胸部X線で自己監督によって訓練された大型ビジュアルエンコーダであるRayDinoについて紹介する。
我々はレイディーノと過去の9つの放射線学課題における最先端モデルを比較し、分類と密分化からテキスト生成までについて述べる。
以上の結果から,患者中心型AIがX線の臨床・解釈に有用であることが示唆された。
論文 参考訳(メタデータ) (2024-05-02T16:59:10Z) - Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI [12.515470808059666]
本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。
これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
論文 参考訳(メタデータ) (2024-02-10T16:16:24Z) - CheX-Nomaly: Segmenting Lung Abnormalities from Chest Radiographs using
Machine Learning [0.0]
本稿では,二元化ローカライズU-netモデルであるCheX-nomalyを提案する。
対照的な学習手法を取り入れることで,異常局所化モデルの一般化性を大幅に向上できることを示す。
また,バウンディングボックスセグメンテーションにおけるU-nets性能を向上させるために,新たな損失手法を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:27:57Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - ExBEHRT: Extended Transformer for Electronic Health Records to Predict
Disease Subtypes & Progressions [0.0]
BEHRT(BERT)の拡張版であるExBEHRTを紹介する。
特徴空間は, 人口統計, 臨床的特徴, バイタルサイン, 喫煙状況, 診断, 処置, 薬品, 実験室検査など, 複数のマルチモーダル記録に拡張する。
異なる疾患における下流タスクのモデル性能は,追加機能により有意に向上することを示した。
論文 参考訳(メタデータ) (2023-03-22T08:03:27Z) - The effect of speech pathology on automatic speaker verification -- a
large-scale study [6.468412158245622]
病的スピーチは 健康なスピーチに比べて プライバシー侵害のリスクが高まっています
ディスフォニアの成人は再識別のリスクが高まる一方、ディスフォニアのような症状は健康な話者に匹敵する結果をもたらす。
病理型間でデータをマージすると、EERは著しく低下し、自動話者検証における病理多様性の潜在的利点が示唆された。
論文 参考訳(メタデータ) (2022-04-13T15:17:00Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。