論文の概要: ASR Under the Stethoscope: Evaluating Biases in Clinical Speech Recognition across Indian Languages
- arxiv url: http://arxiv.org/abs/2512.10967v1
- Date: Sun, 30 Nov 2025 06:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.668337
- Title: ASR Under the Stethoscope: Evaluating Biases in Clinical Speech Recognition across Indian Languages
- Title(参考訳): ステレオスコープ下のASR:インド諸言語における臨床音声認識におけるバイアスの評価
- Authors: Subham Kumar, Prakrithi Shivaprakash, Abhishek Manoharan, Astut Kurariya, Diptadhi Mukherjee, Lekhansh Shukla, Animesh Mukherjee, Prabhat Chand, Pratima Murthy,
- Abstract要約: 我々は,カナダ,ヒンディー語,インド英語にまたがる実世界臨床面接データに基づいて,ASRのパフォーマンスを初めて体系的に評価した。
Indic Whisper、Whisper、Sarvam、Google Speech to text、Gemma3n、Omnilingual、Vaani、Geminiといった主要なモデルを比較します。
結果は、モデルや言語間でのかなりの変動を示し、一部のシステムはインド英語で競争的に機能するが、混成言語や垂直言語では機能しない。
- 参考スコア(独自算出の注目度): 3.3753770857559826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) is increasingly used to document clinical encounters, yet its reliability in multilingual and demographically diverse Indian healthcare contexts remains largely unknown. In this study, we conduct the first systematic audit of ASR performance on real world clinical interview data spanning Kannada, Hindi, and Indian English, comparing leading models including Indic Whisper, Whisper, Sarvam, Google speech to text, Gemma3n, Omnilingual, Vaani, and Gemini. We evaluate transcription accuracy across languages, speakers, and demographic subgroups, with a particular focus on error patterns affecting patients vs. clinicians and gender based or intersectional disparities. Our results reveal substantial variability across models and languages, with some systems performing competitively on Indian English but failing on code mixed or vernacular speech. We also uncover systematic performance gaps tied to speaker role and gender, raising concerns about equitable deployment in clinical settings. By providing a comprehensive multilingual benchmark and fairness analysis, our work highlights the need for culturally and demographically inclusive ASR development for healthcare ecosystem in India.
- Abstract(参考訳): 自動音声認識(英語版) (ASR) は、臨床診断の文書化にますます使われているが、多言語および人口的多様性のあるインドの医療状況における信頼性はほとんど不明である。
Indic Whisper, Whisper, Sarvam, Google Speech to text, Gemma3n, Omnilingual, Vaani, Gemini などの主要なモデルと比較し, カナダ, ヒンディー, インド英語を対象とした実世界臨床面接データに対するASRパフォーマンスのシステマティック監査を行った。
本研究では, 言語, 話者, 人口集団間での転写精度を評価するとともに, 患者と臨床医, ジェンダーベース, 交叉性の違いに影響を及ぼす誤りパターンに着目した。
提案手法は,インド英語と競合する機能を持つが,混合音声や垂直音声では機能しないシステムもある。
また,話者の役割やジェンダーに関連する系統的なパフォーマンスギャップを明らかにし,臨床環境における公平な展開への懸念を提起した。
包括的多言語ベンチマークと公平性分析を提供することで、インドの医療エコシステムにおける文化的かつ人口統計学的に包括的なASR開発の必要性を強調します。
関連論文リスト
- Cross-Lingual Mental Health Ontologies for Indian Languages: Bridging Patient Expression and Clinical Understanding through Explainable AI and Human-in-the-Loop Validation [0.2555114504478013]
インドにおけるメンタルヘルスコミュニケーションは言語的に断片化され、文化的に多様であり、しばしば臨床コミュニケーションでは不十分である。
本稿では、文化に埋め込まれた苦悩の表現を捉え、それらを言語間で整列させ、臨床用語と結びつけるグラフベースの手法を用いて、メンタルヘルス表現の言語横断的な構築のための枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-06T21:27:37Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Advocating Character Error Rate for Multilingual ASR Evaluation [1.2597747768235845]
本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。
我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。
以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T19:57:07Z) - Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials [4.231937382464348]
臨床試験では、患者の音声データに基づいて、認知や精神の健康障害を検出し、モニターする。
我々は,これらの音声記録を用いて,登録患者の身元を確認し,同じ臨床試験で複数回登録しようとする個人を特定し,排除することを提案する。
我々は、英語、ドイツ語、デンマーク語、スペイン語、アラビア語を母語とする言語障害者を対象に、事前訓練したTitaNet, ECAPA-TDNN, SpeakerNetモデルの評価を行った。
論文 参考訳(メタデータ) (2024-04-02T14:19:30Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。