論文の概要: MedVoiceBias: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making
- arxiv url: http://arxiv.org/abs/2511.06592v1
- Date: Mon, 10 Nov 2025 00:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.010804
- Title: MedVoiceBias: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making
- Title(参考訳): MedVoiceBias:臨床診断におけるLLM動作の制御に関する研究
- Authors: Zhi Rui Tam, Yun-Nung Chen,
- Abstract要約: 大規模言語モデルは、テキストベースのインターフェースから臨床環境でのオーディオインタラクションへ移行する。
我々はこれらのモデルを170の症例で評価し、それぞれ36の異なる音声プロファイルから音声に合成した。
- 参考スコア(独自算出の注目度): 24.535496581050094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models transition from text-based interfaces to audio interactions in clinical settings, they might introduce new vulnerabilities through paralinguistic cues in audio. We evaluated these models on 170 clinical cases, each synthesized into speech from 36 distinct voice profiles spanning variations in age, gender, and emotion. Our findings reveal a severe modality bias: surgical recommendations for audio inputs varied by as much as 35% compared to identical text-based inputs, with one model providing 80% fewer recommendations. Further analysis uncovered age disparities of up to 12% between young and elderly voices, which persisted in most models despite chain-of-thought prompting. While explicit reasoning successfully eliminated gender bias, the impact of emotion was not detected due to poor recognition performance. These results demonstrate that audio LLMs are susceptible to making clinical decisions based on a patient's voice characteristics rather than medical evidence, a flaw that risks perpetuating healthcare disparities. We conclude that bias-aware architectures are essential and urgently needed before the clinical deployment of these models.
- Abstract(参考訳): 大規模言語モデルがテキストベースのインターフェースから臨床環境での音声インタラクションへと移行するにつれ、オーディオのパラ言語的手がかりを通じて新たな脆弱性がもたらされる可能性がある。
我々は, 年齢, 性別, 感情の異なる36種類の音声プロファイルから音声に合成した170症例を対象に, これらのモデルを評価した。
音声入力に対する外科的勧告は,同一のテキスト入力と比較して最大35%も変化し,1つのモデルでは80%の推奨値が得られなかった。
さらに分析したところ、若年者と高齢者の年齢格差は最大12%と判明した。
明確な推論は性別バイアスをなくすことに成功したが、認識能力の低下により感情の影響は検出されなかった。
以上の結果から,LLMは医療的証拠ではなく,患者の音声特性に基づいて臨床的な判断を下す可能性が示唆された。
これらのモデルが臨床展開される前には,バイアス対応アーキテクチャが不可欠であり,緊急に必要である,と結論付けている。
関連論文リスト
- CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文 参考訳(メタデータ) (2025-06-06T13:25:56Z) - A Multi-modal Approach to Dysarthria Detection and Severity Assessment Using Speech and Text Information [9.172160338245252]
本研究は、音声とテキストのモダリティを両立させる新しいアプローチを提案する。
本手法は,クロスアテンション機構を用いて,音声とテキスト表現の音響的・言語的類似性を学習する。
論文 参考訳(メタデータ) (2024-12-22T06:08:35Z) - A Classification Benchmark for Artificial Intelligence Detection of Laryngeal Cancer from Patient Voice [0.30723404270319693]
現在の診断経路は非効率であり、患者と医療システムの両方に不適切なストレスを与える。
オープンソースデータセット上でトレーニングおよび評価された36のモデルからなるベンチマークスイートを導入する。
我々の最良のモデルでは、バランスの取れた精度が83.7%、感度が84.0%、特異性が83.3%、AUROCが91.8%である。
論文 参考訳(メタデータ) (2024-12-20T10:34:03Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - What Do You See in this Patient? Behavioral Testing of Clinical NLP
Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。
私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文 参考訳(メタデータ) (2021-11-30T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。