論文の概要: GeHirNet: A Gender-Aware Hierarchical Model for Voice Pathology Classification
- arxiv url: http://arxiv.org/abs/2508.01172v1
- Date: Sat, 02 Aug 2025 03:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.740661
- Title: GeHirNet: A Gender-Aware Hierarchical Model for Voice Pathology Classification
- Title(参考訳): GeHirNet:音声病理分類のためのジェンダー対応階層モデル
- Authors: Fan Wu, Kaicheng Zhao, Elgar Fleisch, Filipe Barata,
- Abstract要約: 本稿では,まず,Melスペクトログラム上でResNet-50を用いて性別特異的な病理パターンを識別し,その後に性別条件付き疾患分類を行う新しい枠組みを提案する。
本研究は,声質特性の階層的モデリングにより,性別バイアスを低減しつつ,声質分類を推し進める。
- 参考スコア(独自算出の注目度): 4.504515306742906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-based voice analysis shows promise for disease diagnostics, but existing classifiers often fail to accurately identify specific pathologies because of gender-related acoustic variations and the scarcity of data for rare diseases. We propose a novel two-stage framework that first identifies gender-specific pathological patterns using ResNet-50 on Mel spectrograms, then performs gender-conditioned disease classification. We address class imbalance through multi-scale resampling and time warping augmentation. Evaluated on a merged dataset from four public repositories, our two-stage architecture with time warping achieves state-of-the-art performance (97.63\% accuracy, 95.25\% MCC), with a 5\% MCC improvement over single-stage baseline. This work advances voice pathology classification while reducing gender bias through hierarchical modeling of vocal characteristics.
- Abstract(参考訳): AIベースの音声分析は、疾患の診断を約束することを示しているが、既存の分類器は、性別に関連した音響的バリエーションとまれな疾患のデータ不足のために、特定の疾患を正確に識別することができないことが多い。
本稿では,Mel スペクトログラム上で ResNet-50 を用いて性別別病理パターンを識別し,その後に性別別疾患分類を行う新しい2段階の枠組みを提案する。
マルチスケール再サンプリングと時間歪み増大によるクラス不均衡に対処する。
4つのパブリックリポジトリから統合されたデータセットに基づいて評価し、タイムワープを伴う2段階アーキテクチャは、最先端のパフォーマンス(97.63\%の精度、95.25\%のMCC)を実現し、単一のステージベースラインよりも5.5%のMCC改善を実現している。
本研究は,声質特性の階層的モデリングにより,性別バイアスを低減しつつ,声質分類を推し進める。
関連論文リスト
- Integrating Chain-of-Thought and Retrieval Augmented Generation Enhances Rare Disease Diagnosis from Clinical Notes [7.772766729052347]
本稿では,RAG(Chain-of-Thought)とRAG(Retrieval Augmented Generation)を組み合わせたRAG(Retrieval Augmented Generation)の2つの方法を紹介する。
フィラデルフィア小児病院の5,980件のPhenopacket由来のノート,255件の文献ベースの物語,220件の内科的臨床ノートなど,まれな疾患データセットに対するこれらのアプローチを評価した。
論文 参考訳(メタデータ) (2025-03-15T22:57:31Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Voice Disorder Analysis: a Transformer-based Approach [10.003909936239742]
本稿では,生音声信号を直接処理するトランスフォーマーを用いた新しいソリューションを提案する。
文読解や持続母音の発声など,多くの記録タイプを同時に検討する。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示した。
論文 参考訳(メタデータ) (2024-06-20T19:29:04Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Automated speech- and text-based classification of neuropsychiatric
conditions in a multidiagnostic setting [2.0972270756982536]
音声パターンは神経精神疾患の診断マーカーとして認識されている。
我々は,機械学習モデルと高度なトランスフォーマーモデルの性能を,二進分類と多進分類の両方で検証した。
以上の結果から,二項分類で訓練したモデルは,臨床と非臨床の集団間の一般的な差異のマーカーに依存することが示唆された。
論文 参考訳(メタデータ) (2023-01-13T08:24:21Z) - Multi-class versus One-class classifier in spontaneous speech analysis
oriented to Alzheimer Disease diagnosis [58.720142291102135]
本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いて自動解析を行うことにより,ADの早期診断と重症度評価の改善に寄与することである。
外付け器とフラクタル次元の機能に関する情報を使用することで、システムの性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T09:57:20Z) - Artificial Intelligence Methods Based Hierarchical Classification of
Frontotemporal Dementia to Improve Diagnostic Predictability [0.0]
Frontotemporal Dementia(FTD)患者は、認知能力、エグゼクティブおよび行動特性、言語能力の喪失、および記憶能力の低下を損ないました。
本研究の目的は、皮質厚さデータに人工知能(AI)のデータ駆動技術を適用することにより、各被験者のMRI画像をFTDのスペクトルの1つに階層的に分類することである。
自動分類モデルでは, 支持ベクトルマシン (SVM) , 線形判別分析 (LDA) , ナイブベイズ法 (Naive Bayes) が10倍のクロスバリデーション解析でそれぞれ86.5, 76, 72.7の分類精度を得た。
論文 参考訳(メタデータ) (2021-04-12T07:04:11Z) - Improving Medical Image Classification with Label Noise Using
Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。
医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-28T14:56:45Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。