論文の概要: ProMedical: Hierarchical Fine-Grained Criteria Modeling for Medical LLM Alignment via Explicit Injection
- arxiv url: http://arxiv.org/abs/2604.08326v1
- Date: Thu, 09 Apr 2026 14:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.977691
- Title: ProMedical: Hierarchical Fine-Grained Criteria Modeling for Medical LLM Alignment via Explicit Injection
- Title(参考訳): 医用LCMアライメントの明示的注入による階層的細粒度基準モデリング
- Authors: He Geng, Yangmin Huang, Lixian Lai, Qianyun Du, Hui Chu, Zhiyang He, Jiaxue Hu, Xiaodong Tao,
- Abstract要約: 本稿では,詳細な臨床基準に基づく統合アライメントフレームワークであるProMedicalを紹介する。
最初にProMedical-Preference-50kを構築した。
従来のスカラー報酬モデルとは異なり、我々のアプローチは安全制約を一般の熟練度から明確に切り離す。
- 参考スコア(独自算出の注目度): 1.1273389819207937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) with high-stakes medical standards remains a significant challenge, primarily due to the dissonance between coarse-grained preference signals and the complex, multi-dimensional nature of clinical protocols. To bridge this gap, we introduce ProMedical, a unified alignment framework grounded in fine-grained clinical criteria. We first construct ProMedical-Preference-50k, a dataset generated via a human-in-the-loop pipeline that augments medical instructions with rigorous, physician-derived rubrics. Leveraging this corpus, we propose the Explicit Criteria Injection paradigm to train a multi-dimensional reward model. Unlike traditional scalar reward models, our approach explicitly disentangles safety constraints from general proficiency, enabling precise guidance during reinforcement learning. To rigorously validate this framework, we establish ProMedical-Bench, a held-out evaluation suite anchored by double-blind expert adjudication. Empirical evaluations demonstrate that optimizing the Qwen3-8B base model via ProMedical-RM-guided GRPO yields substantial gains, improving overall accuracy by 22.3% and safety compliance by 21.7%, effectively rivaling proprietary frontier models. Furthermore, the aligned policy generalizes robustly to external benchmarks, demonstrating performance comparable to state-of-the-art models on UltraMedical. We publicly release our datasets, reward models, and benchmarks to facilitate reproducible research in safety-aware medical alignment.
- Abstract(参考訳): 大規模言語モデル (LLMs) を高い基準で調整することは, 粗い選好信号と臨床プロトコルの複雑で多次元的な性質の相違から, 依然として大きな課題である。
このギャップを埋めるために,詳細な臨床基準を基礎とした統合アライメントフレームワークProMedicalを導入する。
最初にProMedical-Preference-50kを構築した。このデータセットは、厳格な医師由来の潤滑剤で医療指導を増強する。
このコーパスを応用し,多次元報酬モデルの学習を目的としたExplicit Criteria Injectionパラダイムを提案する。
従来のスカラー報酬モデルとは異なり,本手法は安全制約を一般の熟練度から明確に切り離し,強化学習における正確な指導を可能にする。
この枠組みを厳格に検証するために,両盲の専門家による評価スイートであるProMedical-Benchを構築した。
実証的な評価では、Qwen3-8BベースモデルをProMedical-RM-guided GRPOで最適化すると、精度が22.3%向上し、安全性が21.7%向上し、プロプライエタリなフロンティアモデルと競合する。
さらに、アライメントポリシは外部ベンチマークに堅牢に一般化され、UltraMedicalの最先端モデルに匹敵するパフォーマンスを示す。
安全に配慮した医療アライメントの再現可能な研究を促進するために、データセット、報酬モデル、ベンチマークを公開しています。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - ClinAlign: Scaling Healthcare Alignment from Clinician Preference [46.61989657665566]
今回,HealthRubricsについて紹介する。
119は広く再利用され、臨床的に根ざした原則である。
私たちのフレームワークでトレーニングされた30B-A3BモデルはHealthBench-Hardで33.4%を達成した。
論文 参考訳(メタデータ) (2026-02-10T11:02:57Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Multidimensional Rubric-oriented Reward Model Learning via Geometric Projection Reference Constraints [4.79357178898034]
GPRC(Geometric Projection Reference Constraints)を用いたMR-RML(Multidimensional-oriented Reward Model Learning)を導入する。
提案手法は,(1)訓練パイプライン全体にドメイン固有のガイドラインを組み込んだ医療標準システム,(2)評価基準を分解する独立した多次元報酬モデル,(3)臨床認知論理を数学的正則化に変換する予測基準制約,の3つの重要なイノベーションを紹介する。
本手法はQwen-32Bモデルの性能を大幅に向上させ,完全部分集合では45%,ハード部分集合では85%向上させた。
論文 参考訳(メタデータ) (2025-11-20T08:26:16Z) - Baichuan-M2: Scaling Medical Capability with Large Verifier System [40.86227022086866]
静的解答検証を超越した,新しい動的検証フレームワークを提案する。
多段階強化学習戦略によって訓練された医療強化推論モデルBaichuan-M2を開発した。
HealthBenchでの評価では、Baichuan-M2は、他のすべてのオープンソースモデルや、最も高度なクローズドソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-09-02T11:23:35Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Refine Medical Diagnosis Using Generation Augmented Retrieval and Clinical Practice Guidelines [16.56254046507092]
GARMLE-Gは、医療用言語モデルの出力を権威的ガイドラインに根拠づけた、世代別検索フレームワークである。
従来のRetrieval-Augmented Generationベースのアプローチとは異なり、GARMLE-Gは権威的なガイドラインコンテンツを直接検索することで幻覚のない出力を可能にする。
高血圧診断のためのプロトタイプシステムを開発し, 検索精度, 意味的関連性, 臨床ガイドラインの適合性を実証した。
論文 参考訳(メタデータ) (2025-06-22T11:31:13Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。