Fugu-MT 論文翻訳(概要): Can "AI" Be a Doctor? A Study of Empathy, Readability, and Alignment in Clinical LLMs

論文の概要: Can "AI" Be a Doctor? A Study of Empathy, Readability, and Alignment in Clinical LLMs

arxiv url: http://arxiv.org/abs/2604.20791v1
Date: Wed, 22 Apr 2026 17:17:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.252689
Title: Can "AI" Be a Doctor? A Study of Empathy, Readability, and Alignment in Clinical LLMs
Title（参考訳）: AIは医者になれるか? : 臨床LLMにおける共感・可読性・アライメントに関する研究
Authors: Mariano Barone, Francesco Di Serio, Roberto Moio, Marco Postiglione, Giuseppe Riccio, Antonio Romano, Vincenzo Moscato,
Abstract要約: 大規模言語モデル (LLM) は医療においてますます普及しているが、臨床標準とのコミュニケーションの整合性は十分に定量化されていない。我々は,構造化医用説明書と実世界の医師と患者との相互作用を多次元的に比較し,汎用的およびドメイン特化LDMの多次元評価を行う。
参考スコア（独自算出の注目度）: 10.384430059408816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly deployed in healthcare, yet their communicative alignment with clinical standards remains insufficiently quantified. We conduct a multidimensional evaluation of general-purpose and domain-specialized LLMs across structured medical explanations and real-world physician-patient interactions, analyzing semantic fidelity, readability, and affective resonance. Baseline models amplify affective polarity relative to physicians (Very Negative: 43.14-45.10% vs. 37.25%) and, in larger architectures such as GPT-5 and Claude, produce substantially higher linguistic complexity (FKGL up to 16.91-17.60 vs. 11.47-12.50 in physician-authored responses). Empathy-oriented prompting reduces extreme negativity and lowers grade-level complexity (up to -6.87 FKGL points for GPT-5) but does not significantly increase semantic fidelity. Collaborative rewriting yields the strongest overall alignment. Rephrase configurations achieve the highest semantic similarity to physician answers (up to mean = 0.93) while consistently improving readability and reducing affective extremity. Dual stakeholder evaluation shows that no model surpasses physicians on epistemic criteria, whereas patients consistently prefer rewritten variants for clarity and emotional tone. These findings suggest that LLMs function most effectively as collaborative communication enhancers rather than replacements for clinical expertise.
Abstract（参考訳）: 大規模言語モデル (LLM) は医療においてますます普及しているが、臨床標準とのコミュニケーションの整合性は十分に定量化されていない。我々は、構造化された医療的説明と実際の医師と患者との相互作用を多次元的に評価し、意味的忠実さ、可読性、感情共鳴を分析した。ベースラインモデルは、医師に対する感情の極性(非常に否定的:43.14-45.10% vs. 37.25%)を増幅し、GPT-5やClaudeのような大規模アーキテクチャでは、医師が認可した反応では16.91-17.60対11.47-12.50までのFKGL)がかなり高い言語複雑性をもたらす。共感指向のプロンプトは極度の否定性を低下させ、グレードレベルの複雑性(GPT-5では最大6.87FKGLポイント)を低下させるが、意味的忠実度は著しくは向上しない。協調的な書き直しは、最も強い全体的なアライメントをもたらす。リフレーズ構成は、医師の答えと最もセマンティックな類似性(平均=0.93まで)を達成すると同時に、読みやすさを一貫して改善し、感情的過度を減少させる。二重利害関係者の評価は、患者が常に明快さと感情のトーンのために書き直した変種を好むのに対して、医師を優越するモデルはないことを示している。これらの結果から,LSMsは臨床専門の代替品ではなく,協調的なコミュニケーション促進剤として最も効果的に機能することが示唆された。

関連論文リスト

This Treatment Works, Right? Evaluating LLM Sensitivity to Patient Question Framing in Medical QA [35.372014797343546]
大規模言語モデル(LLM)は、フレーズの発声に敏感であり、質問の語源に影響を受けやすい。医療質問応答(QA)のための制御検索強化世代(RAG)設定の体系的評価を通じてこれを検証する。臨床試験の要約に基づいた6,614組のクエリペアのデータセットを構築し,8つのLCM間の応答一貫性を評価する。
論文参考訳（メタデータ） (2026-04-06T18:03:54Z)
Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。 Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文参考訳（メタデータ） (2026-03-23T05:46:45Z)
MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。 MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。 2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文参考訳（メタデータ） (2026-03-13T22:30:26Z)
A Multi-Agent Framework for Interpreting Multivariate Physiological Time Series [9.72130666902599]
本稿では,多変量生理的時系列を記述した役割構造型マルチエージェントシステムであるVivaldiを紹介する。実験の結果,エージェントパイプラインは,非思考的,医学的に微調整されたモデルに極めて有用であることがわかった。一方、痛みスコアや滞在時間といった主観的対象は、限定的あるいは矛盾的な変化を示す。
論文参考訳（メタデータ） (2026-03-04T14:55:46Z)
When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。 LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文参考訳（メタデータ） (2026-02-27T21:09:43Z)
DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文参考訳（メタデータ） (2025-10-24T08:01:21Z)
Mapping Patient-Perceived Physician Traits from Nationwide Online Reviews with LLMs [3.364244912862208]
本稿では,5つの人格特性と5つの患者主観的判断を推定する大規模言語モデル(LLM)に基づくパイプラインを提案する。この分析は、米国の医師226,999人の4100万人の患者のレビューを含む。
論文参考訳（メタデータ） (2025-10-05T02:16:35Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study [0.6999740786886538]
転写解析に基づく臨床うつ病評価におけるGPT-4の使用について検討した。本稿では,患者インタビューを2つのカテゴリーに分類するモデルの能力について検討する。その結果, GPT-4の精度およびF1スコアは, 構成によって大きく変動することが示唆された。
論文参考訳（メタデータ） (2024-12-31T00:32:43Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。