論文の概要: Benchmarking Ethical and Safety Risks of Healthcare LLMs in China-Toward Systemic Governance under Healthy China 2030
- arxiv url: http://arxiv.org/abs/2505.07205v1
- Date: Mon, 12 May 2025 03:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.251574
- Title: Benchmarking Ethical and Safety Risks of Healthcare LLMs in China-Toward Systemic Governance under Healthy China 2030
- Title(参考訳): 中国における保健 LLM の倫理的・安全リスクのベンチマーク-2030年中国保健における体系的ガバナンスへ向けて
- Authors: Mouxiao Bian, Rongzhao Zhang, Chao Ding, Xinwei Peng, Jie Xu,
- Abstract要約: 大規模言語モデル(LLM)は、中国のヘルス・チャイナ2030イニシアチブの下で医療を変革する。
医学的文脈における11の倫理と9つの安全次元をカバーする新しい12,000項目のQ&Aベンチマークを提案する。
このデータセットを用いて,現在の中国の医療用LLMを評価した。
- 参考スコア(独自算出の注目度): 4.005892067111409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are poised to transform healthcare under China's Healthy China 2030 initiative, yet they introduce new ethical and patient-safety challenges. We present a novel 12,000-item Q&A benchmark covering 11 ethics and 9 safety dimensions in medical contexts, to quantitatively evaluate these risks. Using this dataset, we assess state-of-the-art Chinese medical LLMs (e.g., Qwen 2.5-32B, DeepSeek), revealing moderate baseline performance (accuracy 42.7% for Qwen 2.5-32B) and significant improvements after fine-tuning on our data (up to 50.8% accuracy). Results show notable gaps in LLM decision-making on ethics and safety scenarios, reflecting insufficient institutional oversight. We then identify systemic governance shortfalls-including the lack of fine-grained ethical audit protocols, slow adaptation by hospital IRBs, and insufficient evaluation tools-that currently hinder safe LLM deployment. Finally, we propose a practical governance framework for healthcare institutions (embedding LLM auditing teams, enacting data ethics guidelines, and implementing safety simulation pipelines) to proactively manage LLM risks. Our study highlights the urgent need for robust LLM governance in Chinese healthcare, aligning AI innovation with patient safety and ethical standards.
- Abstract(参考訳): 大規模言語モデル(LLM)は、中国のヘルス・チャイナ2030イニシアチブの下で医療を変革する可能性があるが、新たな倫理的および患者安全上の課題が導入されている。
本研究は、医療現場における倫理と9つの安全次元をカバーする12,000項目のQ&Aベンチマークを行い、これらのリスクを定量的に評価する。
このデータセットを用いて、現在の中国の医療用LCM(例えば、Qwen 2.5-32B、DeepSeek)を評価し、適度なベースライン性能(Qwen 2.5-32Bの精度42.7%)と、データの微調整後の大幅な改善(50.8%の精度)を明らかにした。
その結果,LLM意思決定における倫理的・安全的シナリオのギャップが顕著であり,制度的監視が不十分であったことが示唆された。
次に, 厳密な倫理監査プロトコルの欠如, 病院IRBによる適応の遅さ, そして現在, LLMの安全な展開を妨げている評価ツールの不足など, システムガバナンスの欠点を特定する。
最後に,LLMリスクを積極的に管理するための医療機関(LLM監査チームの導入,データ倫理ガイドラインの実施,安全シミュレーションパイプラインの実施)のための実践的ガバナンスフレームワークを提案する。
我々の研究は、中国の医療における堅牢なLSMガバナンスの必要性を強調し、AIイノベーションを患者の安全と倫理的基準と整合させる。
関連論文リスト
- Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - A Comprehensive Survey on the Trustworthiness of Large Language Models in Healthcare [5.765614539740084]
医療における大規模言語モデル(LLM)の適用は、臨床意思決定、医学研究、患者医療に革命をもたらす可能性がある。
LLMはますます医療システムに統合されているため、信頼性と倫理的展開を保証するために、いくつかの重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-02-21T18:43:06Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [75.85283891591678]
人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。
本研究では,LLM とビジョン言語モデル (VLM) を評価する総合的なフレームワークであるLab Safety Benchmark (LabSafety Bench) を提案する。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models [32.35118292932457]
まず,米国医学会の医療倫理原則に基づいて,大規模言語モデル(LLM)における医療安全の概念を定義した。
次に、この理解を活用して、LSMの医療安全を測定するために設計された最初のベンチマークデータセットであるMedSafetyBenchを導入します。
以上の結果から,医療用LLMは医療安全基準に適合せず,MedSafetyBenchを用いた微調整により医療安全を向上し,医療性能の維持が図られている。
論文 参考訳(メタデータ) (2024-03-06T14:34:07Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。