論文の概要: Ethical Risks of Large Language Models in Medical Consultation: An Assessment Based on Reproductive Ethics
- arxiv url: http://arxiv.org/abs/2601.22621v1
- Date: Fri, 30 Jan 2026 06:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.268427
- Title: Ethical Risks of Large Language Models in Medical Consultation: An Assessment Based on Reproductive Ethics
- Title(参考訳): 医療相談における大規模言語モデルの倫理的リスク:生殖倫理に基づく評価
- Authors: Hanhui Xu, Jiacheng Ji, Haoan Jin, Han Ying, Mengyue Wu,
- Abstract要約: 大きな言語モデル(LLM)が倫理的に従順な方法で医学的問い合わせに応答できるかどうかという懸念が高まっている。
本研究は、生殖倫理に関する疑問に答える上で、LLMのパフォーマンスを体系的に評価する。
- 参考スコア(独自算出の注目度): 21.294774397877852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: As large language models (LLMs) are increasingly used in healthcare and medical consultation settings, a growing concern is whether these models can respond to medical inquiries in a manner that is ethically compliant--particularly in accordance with local ethical standards. To address the pressing need for comprehensive research on reliability and safety, this study systematically evaluates LLM performance in answering questions related to reproductive ethics, specifically assessing their alignment with Chinese ethical regulations. Methods: We evaluated eight prominent LLMs (e.g., GPT-4, Claude-3.7) on a custom test set of 986 questions (906 subjective, 80 objective) derived from 168 articles within Chinese reproductive ethics regulations. Subjective responses were evaluated using a novel six-dimensional scoring rubric assessing Safety (Normative Compliance, Guidance Safety) and Quality of the Answer (Problem Identification, Citation, Suggestion, Empathy). Results: Significant safety issues were prevalent, with risk rates for unsafe or misleading advice reaching 29.91%. A systemic weakness was observed across all models: universally poor performance in citing normative sources and expressing empathy. We also identified instances of anomalous moral reasoning, including logical self-contradictions and responses violating fundamental moral intuitions. Conclusions: Current LLMs are unreliable and unsafe for autonomous reproductive ethics counseling. Despite knowledge recall, they exhibit critical deficiencies in safety, logical consistency, and essential humanistic skills. These findings serve as a critical cautionary note against premature deployment, urging future development to prioritize robust reasoning, regulatory justification, and empathy.
- Abstract(参考訳): 背景: 大規模言語モデル (LLM) が医療・医療相談の場面でますます使われるようになるにつれて、これらのモデルが倫理的に適合する形で、特に地域倫理基準に従って、医学的問い合わせに応答できるかどうかという懸念が高まっている。
本研究は、信頼性と安全性に関する総合的な研究の必要性に対処するため、生殖倫理に関する疑問に答える上で、LLMのパフォーマンスを体系的に評価し、特に中国の倫理規定との整合性を評価する。
方法:中国の生殖倫理規定に含まれる168項目から抽出した986問(主観的・目的的・目的的・目的的・目的的)を選抜し,8項目のLCM(g , GPT-4, Claude-3.7)を評価した。
安全度(順応性,指導安全度)と回答の質(主観的識別,扇動,提案,共感)を評価する新しい6次元スコアリングルーリックを用いて,主観的応答を評価した。
結果: 重大な安全上の問題が発生し、安全でないまたは誤解を招くアドバイスのリスク率は29.91%に達した。
全てのモデルにおいて、規範的な情報源を引用し、共感を表現することで、普遍的にパフォーマンスが劣っているという、体系的な弱点が観察された。
また、論理的自己矛盾や、基本的な道徳的直観に反する反応を含む、異常な道徳的推論の事例を特定した。
結論: 現在のLLMは、自律的な生殖倫理カウンセリングには信頼できないし、安全ではない。
知識のリコールにもかかわらず、それらは安全性、論理的整合性、本質的な人道的スキルに重大な欠陥を示す。
これらの発見は、早期展開に対する批判的な注意事項として機能し、堅牢な推論、規制の正当化、共感を優先するよう将来の発展を促している。
関連論文リスト
- PsychEthicsBench: Evaluating Large Language Models Against Australian Mental Health Ethics [35.52940216380734]
メンタルヘルスでは、臨床的に不十分な拒絶は非共感的であり、助けを探すのを妨げていると見なすことができる。
このギャップに対処するため、私たちは拒絶中心のメトリクスを超えて、オーストラリアの心理学と精神医学のガイドラインに基づいた最初の原則に基づくベンチマークであるtextttPsychEthicsBenchを導入しました。
14モデルにわたる実証的な結果から、拒絶率は倫理的行動の指標に乏しいことが判明し、安全性の引き金と臨床的適切性の間に大きな違いがあることが判明した。
論文 参考訳(メタデータ) (2026-01-07T04:49:02Z) - EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI [0.2538209532048867]
このデータセットは、倫理的に課金された状況をAIシステムがどうナビゲートするかを評価するために設計された125のシナリオのパイロットデータセットである。
EthicsMHは、AI倫理とメンタルヘルスの意思決定を橋渡しするタスクフレームワークを確立する。
論文 参考訳(メタデータ) (2025-09-15T07:35:35Z) - Towards Assessing Medical Ethics from Knowledge to Practice [30.668836248264757]
我々は3,648の質問を伴う総合的なベンチマークであるPrinciplismQAを紹介する。
これには、権威ある教科書から収集された複数の選択の質問や、権威ある医療倫理学のケーススタディ文学から得られたオープンエンドの質問が含まれる。
実験の結果,モデルの倫理的知識と実践的応用との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2025-08-07T08:10:14Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - A Conceptual Framework for Ethical Evaluation of Machine Learning Systems [12.887834116390358]
倫理的意味は、機械学習システムの評価を設計する際に現れる。
本稿では,倫理的評価における重要なトレードオフを,潜在的な倫理的害に対する情報ゲインのバランスとして特徴付けるユーティリティ・フレームワークを提案する。
我々の分析は、倫理的な複雑さを意図的に評価し、管理する開発チームにとって重要な必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-05T01:06:49Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - Ethics in conversation: Building an ethics assurance case for autonomous
AI-enabled voice agents in healthcare [1.8964739087256175]
原則に基づく倫理保証議論パターンは、AI倫理のランドスケープにおける1つの提案である。
本稿では,AIベースの遠隔医療システムであるDoraの利用に対して,この倫理保証フレームワークを適用した事例研究の中間的結果を示す。
論文 参考訳(メタデータ) (2023-05-23T16:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。