Fugu-MT 論文翻訳(概要): Can We Trust LLMs for Mental Health Screening? Consistency, ASR Robustness, and Evidence Faithfulness

論文の概要: Can We Trust LLMs for Mental Health Screening? Consistency, ASR Robustness, and Evidence Faithfulness

arxiv url: http://arxiv.org/abs/2605.09634v1
Date: Sun, 10 May 2026 16:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.344286
Title: Can We Trust LLMs for Mental Health Screening? Consistency, ASR Robustness, and Evidence Faithfulness
Title（参考訳）: メンタルヘルススクリーニングのためのLCMを信頼できるか? 一貫性、ASRロバスト性、およびエビデンス忠実性
Authors: Erfan Loweimi, Sofia de la Fuente Garcia, Samira Loveymi, Hadi Daneshvar, Saturnino Luz,
Abstract要約: 英語話者111名を対象に3つのLLM(Phi-4, Gemma-2-9B, Llama-3.1-8B)を評価した。 Phi-4とGemma-2-9Bは優れたモデル内整合性(ICC > 0.89)を達成する。 Llama-3.1-8Bは、AICが10% WERで0.82から0.36に低下する、ASR-フラジオールの一貫性を示す。モデル間キーワードの一致はスコアレベル合意よりもはるかに低く、臨床的解釈可能性に意味のあるスコアエビデンス解離が明らかである。
参考スコア（独自算出の注目度）: 7.168465906837131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs can estimate Hospital Anxiety and Depression Scale (HADS) scores from speech in a zero-shot manner, but clinical deployment requires reliability across three dimensions: intra-model consistency, ASR robustness, and evidence faithfulness. We evaluate three LLMs (Phi-4, Gemma-2-9B, and Llama-3.1-8B) on 111 English-speaking participants using ground-truth transcripts and three Whisper ASR variants (Large, Medium, Small), with three independent runs per model-condition pair. We find that (i) Phi-4 and Gemma-2-9B achieve excellent intra-model consistency (ICC > 0.89) with minimal degradation under ASR; (ii) Llama-3.1-8B shows ASR-fragile consistency, with ICC dropping from 0.82 to 0.36 at 10% WER; (iii) predictive validity is largely preserved under ASR for robust models; and (iv) keyword groundedness exceeds 93% for Phi-4 and Gemma-2-9B but falls to 77-81% for Llama-3.1-8B. Inter-model keyword agreement is far lower than score-level agreement, revealing a score-evidence dissociation with implications for clinical interpretability.
Abstract（参考訳）: LLMは、病院不安と抑うつ尺度(HADS)のスコアをゼロショットで推定できるが、臨床展開には、モデルの一貫性、ASRの堅牢性、エビデンス忠実性の3次元にわたる信頼性が必要である。我々は,3つのLLM (Phi-4, Gemma-2-9B, Llama-3.1-8B) と3つのWhisper ASR変異体 (Large, Medium, Small) を用いて111人の英語話者を対象に,モデル条件毎に3つの独立したランニングを行った。私たちはそれを見つける。 (i)Phi-4とGemma-2-9Bは、ASR下での最小劣化で優れたモデル内整合性(ICC > 0.89)を達成する。 (ii)Llama-3.1-8Bは、AICが10% WERで0.82から0.36に低下したASR-フラジオールの一貫性を示す。三予測妥当性は、ロバストモデルにおいて、ASRの下で大半が保存されている。 (iv)キーワード接頭辞はPhi-4とGemma-2-9Bの93%を超えるが、Llama-3.1-8Bの77-81%に低下する。モデル間キーワードの一致はスコアレベル合意よりもはるかに低く、臨床的解釈可能性に意味のあるスコアエビデンス解離が明らかである。

関連論文リスト

AI Safety Training Can be Clinically Harmful [15.31927635809423]
本稿では,250例の長期曝露療法シナリオと146例のCBT認知再構成演習の4つの生成モデルについて検討した。全てのモデルは表面の承認 (0.91-1.00) でほぼ完璧に得点し、治療適性は4つのモデル中3つの最重度で0.22-0.33に低下した。
論文参考訳（メタデータ） (2026-04-25T21:09:50Z)
Automated Detection of Dosing Errors in Clinical Trial Narratives: A Multi-Modal Feature Engineering Approach with LightGBM [1.0152838128195467]
本研究では,非構造的臨床試験におけるドスリングエラーの自動検出システムを提案する。提案手法は,従来のNLP(TF-IDF,キャラクタn-gram),密接なセマンティック埋め込み,ドメイン固有の医療パターン,トランスフォーマーベースのスコアにまたがる3,451の特徴を組み合わせたものである。
論文参考訳（メタデータ） (2026-03-25T14:56:34Z)
Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。 Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文参考訳（メタデータ） (2026-03-23T05:46:45Z)
Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation [51.897472694590356]
Surg-R1は4段階のパイプラインで訓練された階層的推論によってギャップに対処する手術的視覚言語モデルである。提案手法では,(1)知覚的根拠,関係理解,文脈的推論に外科的解釈を分解する3段階の推論階層,(2)320,000の推論ペアを持つ最大の外科的チェーン・オブ・シークエンス・データセット,の3つの重要な貢献を紹介する。
論文参考訳（メタデータ） (2026-03-12T20:26:28Z)
BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。両課題に対処する統合フレームワークであるBadCLIP++を提案する。ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文参考訳（メタデータ） (2026-02-19T08:31:16Z)
Recursive Knowledge Synthesis for Multi-LLM Systems: Stability Analysis and Tri-Agent Audit Framework [0.0]
本稿では,大規模言語システムにおける安定性と説明可能性を分析するための三段階クロスバリデーションフレームワークを提案する。このアーキテクチャは、セマンティックジェネレーション、分析整合性チェック、透明性監査に使用される3つの異種LCMを統合している。
論文参考訳（メタデータ） (2025-12-17T16:42:45Z)
Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。 LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文参考訳（メタデータ） (2025-11-01T15:25:55Z)
A Multi-agent Large Language Model Framework to Automatically Assess Performance of a Clinical AI Triage Tool [5.585587545595609]
本研究の目的は,複数のLDMエージェントのアンサンブルを用いて,画素ベースのAIトリアージツールの信頼性を高めることであった。
論文参考訳（メタデータ） (2025-10-30T13:50:19Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。