論文の概要: A Human-Centric Pipeline for Aligning Large Language Models with Chinese Medical Ethics
- arxiv url: http://arxiv.org/abs/2601.07954v1
- Date: Mon, 12 Jan 2026 19:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.921123
- Title: A Human-Centric Pipeline for Aligning Large Language Models with Chinese Medical Ethics
- Title(参考訳): 中国医学倫理を用いた大規模言語モデル構築のための人間中心パイプライン
- Authors: Haoan Jin, Han Ying, Jiacheng Ji, Hanhui Xu, Mengyue Wu,
- Abstract要約: MedESは、260の権威ある中国の医療、倫理、法的な情報源から特別に構築されたシナリオ中心のベンチマークである。
モデルアライメントを容易にするために,専用自動評価器を活用したループ内保護フレームワークを提案する。
我々の研究は、中国の医療分野におけるLLMと医療倫理を整合させる実践的で適応可能な枠組みを提供する。
- 参考スコア(独自算出の注目度): 21.294774397877852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have enabled their application to a range of healthcare tasks. However, aligning LLMs with the nuanced demands of medical ethics, especially under complex real world scenarios, remains underexplored. In this work, we present MedES, a dynamic, scenario-centric benchmark specifically constructed from 260 authoritative Chinese medical, ethical, and legal sources to reflect the challenges in clinical decision-making. To facilitate model alignment, we introduce a guardian-in-the-loop framework that leverages a dedicated automated evaluator (trained on expert-labeled data and achieving over 97% accuracy within our domain) to generate targeted prompts and provide structured ethical feedback. Using this pipeline, we align a 7B-parameter LLM through supervised fine-tuning and domain-specific preference optimization. Experimental results, conducted entirely within the Chinese medical ethics context, demonstrate that our aligned model outperforms notably larger baselines on core ethical tasks, with observed improvements in both quality and composite evaluation metrics. Our work offers a practical and adaptable framework for aligning LLMs with medical ethics in the Chinese healthcare domain, and suggests that similar alignment pipelines may be instantiated in other legal and cultural environments through modular replacement of the underlying normative corpus.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、様々な医療タスクへの応用を可能にしている。
しかし、LLMと医療倫理の曖昧な要求、特に複雑な現実のシナリオの下での整合性はいまだに未解明のままである。
本研究は,中国の260の権威ある医療,倫理,法的資料から構築された動的シナリオ中心のベンチマークであるMedESを紹介し,臨床意思決定の課題を反映する。
モデルアライメントを容易にするために,専門的な自動評価装置(専門家ラベル付きデータに基づいてトレーニングされ,ドメイン内で97%以上の精度を達成)を活用して,対象とするプロンプトを生成し,構造化された倫理的フィードバックを提供する。
このパイプラインを用いて、教師付き微調整とドメイン固有の優先順位最適化により、7BパラメータLLMを整列する。
中国医学倫理の文脈内で実施された実験の結果、我々の整列モデルは、中核的な倫理的課題において、品質と総合的評価の指標の双方において、顕著に優れた基礎となることを実証した。
我々の研究は、中国の医療分野におけるLLMと医療倫理を整合させる実践的かつ適応的な枠組みを提供しており、同様のアライメントパイプラインが、根底にある規範コーパスのモジュール化によって、他の法と文化の環境においてインスタンス化されることを示唆している。
関連論文リスト
- Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper [0.609562679184219]
大規模言語モデル(LLM)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果は、まだ探索されていない。
ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。
本手法は,ケニアの全国ガイドラインに臨床質問を根拠として,地域標準との整合性を確保するためにRAG (Regegration augmented generation) を用いている。
論文 参考訳(メタデータ) (2025-07-19T13:25:26Z) - MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。
MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。
本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文 参考訳(メタデータ) (2025-05-16T18:21:52Z) - MedEthicEval: Evaluating Large Language Models Based on Chinese Medical Ethics [30.129774371246086]
本稿では,医療倫理分野における大規模言語モデル(LLM)の評価を目的とした新しいベンチマークであるMedEthicEvalを紹介する。
我々のフレームワークは、知識、モデルによる医療倫理原則の把握、応用の2つの重要な要素を含み、様々なシナリオにまたがってこれらの原則を適用する能力に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-04T08:01:34Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。