論文の概要: Towards Assessing Medical Ethics from Knowledge to Practice
- arxiv url: http://arxiv.org/abs/2508.05132v1
- Date: Thu, 07 Aug 2025 08:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.757112
- Title: Towards Assessing Medical Ethics from Knowledge to Practice
- Title(参考訳): 医療倫理の知識から実践へ
- Authors: Chang Hong, Minghao Wu, Qingying Xiao, Yuchi Wang, Xiang Wan, Guangjun Yu, Benyou Wang, Yan Hu,
- Abstract要約: 我々は3,648の質問を伴う総合的なベンチマークであるPrinciplismQAを紹介する。
これには、権威ある教科書から収集された複数の選択の質問や、権威ある医療倫理学のケーススタディ文学から得られたオープンエンドの質問が含まれる。
実験の結果,モデルの倫理的知識と実践的応用との間に大きなギャップがあることが判明した。
- 参考スコア(独自算出の注目度): 30.668836248264757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language models into healthcare necessitates a rigorous evaluation of their ethical reasoning, an area current benchmarks often overlook. We introduce PrinciplismQA, a comprehensive benchmark with 3,648 questions designed to systematically assess LLMs' alignment with core medical ethics. Grounded in Principlism, our benchmark features a high-quality dataset. This includes multiple-choice questions curated from authoritative textbooks and open-ended questions sourced from authoritative medical ethics case study literature, all validated by medical experts. Our experiments reveal a significant gap between models' ethical knowledge and their practical application, especially in dynamically applying ethical principles to real-world scenarios. Most LLMs struggle with dilemmas concerning Beneficence, often over-emphasizing other principles. Frontier closed-source models, driven by strong general capabilities, currently lead the benchmark. Notably, medical domain fine-tuning can enhance models' overall ethical competence, but further progress requires better alignment with medical ethical knowledge. PrinciplismQA offers a scalable framework to diagnose these specific ethical weaknesses, paving the way for more balanced and responsible medical AI.
- Abstract(参考訳): 大規模言語モデルの医療への統合は、倫理的推論の厳格な評価を必要とする。
PrinciplismQAは,LLMと中核医療倫理の整合性を体系的に評価するための3,648の質問からなる総合的なベンチマークである。
Principlismをベースとしたベンチマークでは、高品質なデータセットが特徴です。
これには、権威ある教科書から収集された複数の選択の質問や、権威ある医療倫理学のケーススタディ文学に由来するオープンエンドの質問が含まれており、すべて医療専門家によって検証されている。
我々の実験は、特に現実のシナリオに倫理的原則を動的に適用する場合において、モデルの倫理的知識と実践的応用との間に大きなギャップがあることを明らかにした。
ほとんどのLLMは、他の原則を過度に強調する、便益に関するジレンマと戦っている。
強力な汎用機能によって駆動されるFrontierのクローズドソースモデルは、現在ベンチマークをリードしている。
特に、医療領域の微調整は、モデル全体の倫理的能力を高めることができるが、さらなる進歩には医学的倫理的知識との整合性が必要である。
Principlism QAは、これらの特定の倫理的弱点を診断するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - MedEthicsQA: A Comprehensive Question Answering Benchmark for Medical Ethics Evaluation of LLMs [18.92960063905292]
本稿では, LLM における医療倫理評価のために, $textbf5,623$ 複数選択質問と $textbf5,351$ オープンエンド質問からなる総合的なベンチマークである $textbfMedEthicsQA$を紹介する。
我々は、グローバルな医療倫理基準を統合した階層的な分類を体系的に確立し、このベンチマークは広く使われている医療データセット、権威ある質問銀行、文献から派生したシナリオを包含する。
論文 参考訳(メタデータ) (2025-06-28T08:21:35Z) - Ethical AI in the Healthcare Sector: Investigating Key Drivers of Adoption through the Multi-Dimensional Ethical AI Adoption Model (MEAAM) [1.5458951336481048]
本稿では,多次元倫理AI導入モデル(MEAAM)を紹介する。
Ethical AI Fair AI、Responsible AI、Explainable AI、Sustainable AIの4つの基本次元の13の批判的倫理変数を分類する。
これらの倫理的構成が、オペレーショナルAI導入とシステミックAI導入の2つの結果に与える影響を調査する。
論文 参考訳(メタデータ) (2025-05-04T10:40:05Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedEthicEval: Evaluating Large Language Models Based on Chinese Medical Ethics [30.129774371246086]
本稿では,医療倫理分野における大規模言語モデル(LLM)の評価を目的とした新しいベンチマークであるMedEthicEvalを紹介する。
我々のフレームワークは、知識、モデルによる医療倫理原則の把握、応用の2つの重要な要素を含み、様々なシナリオにまたがってこれらの原則を適用する能力に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-04T08:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - The Ethics of ChatGPT in Medicine and Healthcare: A Systematic Review on Large Language Models (LLMs) [0.0]
ChatGPT, Large Language Models (LLMs) は医療分野で大きな注目を集めている。
その潜在的な利点にもかかわらず、研究者は様々な倫理的影響を過小評価してきた。
本研究は, LLMの医療・医療への展開の現段階を取り巻く倫理的景観を地図化することを目的としている。
論文 参考訳(メタデータ) (2024-03-21T15:20:07Z) - Towards A Unified Utilitarian Ethics Framework for Healthcare Artificial
Intelligence [0.08192907805418582]
本研究では、異なる技術レベルでAIの実用性能に影響を与える主要な倫理的原則を特定することを試みる。
正義、プライバシー、偏見、規制の欠如、リスク、解釈可能性は倫理的AIを検討する上で最も重要な原則である。
本稿では,医療領域における倫理的AIを設計するための実用的倫理に基づく理論的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-26T02:10:58Z) - Case Study: Deontological Ethics in NLP [119.53038547411062]
我々はNLPの観点から1つの倫理理論、すなわち非オントロジー的倫理について研究する。
特に、インフォームド・コンセントを通じて、一般化原則と自律性への敬意に焦点を当てる。
NLPシステムでこれらの原則をどのように利用できるかを示すための4つのケーススタディを提供する。
論文 参考訳(メタデータ) (2020-10-09T16:04:51Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。