論文の概要: MedEthicEval: Evaluating Large Language Models Based on Chinese Medical Ethics
- arxiv url: http://arxiv.org/abs/2503.02374v1
- Date: Tue, 04 Mar 2025 08:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:01.596567
- Title: MedEthicEval: Evaluating Large Language Models Based on Chinese Medical Ethics
- Title(参考訳): MedEthicEval:中国の医療倫理に基づく大規模言語モデルの評価
- Authors: Haoan Jin, Jiacheng Shi, Hanhui Xu, Kenny Q. Zhu, Mengyue Wu,
- Abstract要約: 本稿では,医療倫理分野における大規模言語モデル(LLM)の評価を目的とした新しいベンチマークであるMedEthicEvalを紹介する。
我々のフレームワークは、知識、モデルによる医療倫理原則の把握、応用の2つの重要な要素を含み、様々なシナリオにまたがってこれらの原則を適用する能力に焦点を当てている。
- 参考スコア(独自算出の注目度): 30.129774371246086
- License:
- Abstract: Large language models (LLMs) demonstrate significant potential in advancing medical applications, yet their capabilities in addressing medical ethics challenges remain underexplored. This paper introduces MedEthicEval, a novel benchmark designed to systematically evaluate LLMs in the domain of medical ethics. Our framework encompasses two key components: knowledge, assessing the models' grasp of medical ethics principles, and application, focusing on their ability to apply these principles across diverse scenarios. To support this benchmark, we consulted with medical ethics researchers and developed three datasets addressing distinct ethical challenges: blatant violations of medical ethics, priority dilemmas with clear inclinations, and equilibrium dilemmas without obvious resolutions. MedEthicEval serves as a critical tool for understanding LLMs' ethical reasoning in healthcare, paving the way for their responsible and effective use in medical contexts.
- Abstract(参考訳): 大規模言語モデル (LLMs) は医学応用の進展に大きな可能性を示しているが、医療倫理上の課題に対処する能力は未解明のままである。
本稿では,医療倫理分野におけるLSMを体系的に評価するための新しいベンチマークであるMedEthicEvalを紹介する。
我々のフレームワークは、知識、モデルによる医療倫理原則の把握、応用の2つの重要な要素を含み、様々なシナリオにまたがってこれらの原則を適用する能力に焦点を当てている。
このベンチマークを支援するために、我々は医学倫理研究者と相談し、医学倫理の緩やかな違反、明確な傾きを持つ優先ジレンマ、明確な解決のない均衡ジレンマという3つの倫理的課題に対処するデータセットを開発した。
MedEthicEvalは、医療におけるLLMの倫理的推論を理解するための重要なツールであり、医療の文脈における責任と効果的な利用の道を開いた。
関連論文リスト
- Critique of Impure Reason: Unveiling the reasoning behaviour of medical Large Language Models [0.0]
医学領域全体でのLLM(Large Language Models)の普及にもかかわらず、彼らの推論行動に対処する研究が驚くほど不足している。
この文脈では、説明可能なAI(XAI)と等価であるため、高いレベルの予測精度とは対照的に、推論行動を理解することの重要性を強調している。
論文 参考訳(メタデータ) (2024-12-20T10:06:52Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - The Role of Language Models in Modern Healthcare: A Comprehensive Review [2.048226951354646]
医療における大規模言語モデル(LLM)の適用は注目されている。
本稿では,言語モデルの初期から現在までの軌跡を概観する。
論文 参考訳(メタデータ) (2024-09-25T12:15:15Z) - Introducing ELLIPS: An Ethics-Centered Approach to Research on LLM-Based Inference of Psychiatric Conditions [0.6174527525452624]
本稿では,言語を基盤とした精神病理学研究の倫理的景観を概説する。
モデルの開発とデプロイメントをガイドする7つの中心的な倫理原則を特定します。
我々はこれらの原則を研究者の選択を導くための質問に翻訳する。
論文 参考訳(メタデータ) (2024-09-06T12:27:38Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [23.36640449085249]
医学大言語モデル(Med-LLMs)の最近の進歩を辿る。
The wide-ranging application of Med-LLMs are investigated across various health domain。
公平性、説明責任、プライバシー、堅牢性を保証する上での課題について議論する。
論文 参考訳(メタデータ) (2024-06-06T03:15:13Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Towards A Unified Utilitarian Ethics Framework for Healthcare Artificial
Intelligence [0.08192907805418582]
本研究では、異なる技術レベルでAIの実用性能に影響を与える主要な倫理的原則を特定することを試みる。
正義、プライバシー、偏見、規制の欠如、リスク、解釈可能性は倫理的AIを検討する上で最も重要な原則である。
本稿では,医療領域における倫理的AIを設計するための実用的倫理に基づく理論的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-26T02:10:58Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。