論文の概要: Fully Open Meditron: An Auditable Pipeline for Clinical LLMs
- arxiv url: http://arxiv.org/abs/2605.16215v1
- Date: Fri, 15 May 2026 17:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.391666
- Title: Fully Open Meditron: An Auditable Pipeline for Clinical LLMs
- Title(参考訳): 完全オープンメディトロン : 臨床用LLM用可聴パイプライン
- Authors: Xavier Theimer-Lienhard, Mushtaha El-Amin, Fay Elhassan, Sahaj Vaidya, Victor Cartier-Negadi, David Sasu, Lars Klein, Mary-Anne Hartley,
- Abstract要約: 臨床診断支援システムを構築するための,最初の完全オープンパイプラインであるFully Open Meditronを紹介する。
臨床検査を受けたトレーニングコーパス、再現可能なデータ構築およびトレーニングフレームワーク、および使用整合性評価プロトコルで構成されている。
Apertus-70B-MeditronFOは、総合医療ベンチマークで+6.6ポイント(47.2%から53.8%)の改善を行い、新しいFO SoTAを設立した。
- 参考スコア(独自算出の注目度): 0.8322575744308107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical decision support systems (CDSS) require scrutable, auditable pipelines that enable rigorous, reproducible validation. Yet current LLM-based CDSS remain largely opaque. Most "open" models are open-weight only, releasing parameters while withholding the data provenance, curation procedures, and generation pipelines that determine model behavior. Fully Open (FO) models, which expose the complete training stack end-to-end, do not currently exist in medicine. We introduce Fully Open Meditron, the first fully open pipeline for building LLM-CDSS, comprising a clinician-audited training corpus, a reproducible data construction and training framework, and a use-aligned evaluation protocol. The corpus unifies eight public medical QA datasets into a normalized conversational format and expands coverage with three clinician-vetted synthetic extensions: exam-style QA, guideline-grounded QA derived from 46,469 clinical practice guidelines, and clinical vignettes. The pipeline enforces system-wide decontamination, gold-label resampling of teacher generations, and end-to-end validation by a four-physician panel. We evaluate using an LLM-as-a-judge protocol over expert-written clinical vignettes, calibrated against 204 human raters. We apply the recipe to five FO base models (Apertus-70B/8B-Instruct, OLMo-2-32B-SFT, EuroLLM-22B/9B-Instruct). All MeditronFO variants are preferred over their bases. Apertus-70B-MeditronFO improves +6.6 points over its base (47.2% to 53.8%) on aggregate medical benchmarks, establishing a new FO SoTA. Gemma-3-27B-MeditronFO is preferred over MedGemma in 58.6% of LLM-as-a-judge comparisons and outperforms it on HealthBench (58% vs 55.9%). These results show that fully open pipelines can achieve state-of-the-art domain-specific performance without sacrificing auditability or reproducibility.
- Abstract(参考訳): 臨床診断支援システム(CDSS)は、厳密で再現可能な検証を可能にする検査可能なパイプラインを必要とする。
しかし、現在のLCMベースのCDSSはほとんど不透明である。
ほとんどの"オープン"モデルはオープンウェイトのみであり、モデルの振る舞いを決定するデータ証明、キュレーション手順、生成パイプラインを保留しながらパラメータを解放する。
完全なトレーニングスタックをエンドツーエンドで公開する完全なオープン(FO)モデルは、現在医学には存在しない。
本稿では,LCM-CDSS構築のための最初の完全オープンパイプラインであるFully Open Meditronを紹介する。
コーパスは8つの公開医療用QAデータセットを正常化された会話形式に統一し、検査スタイルのQA、46,469の臨床実践ガイドラインから派生したガイドライン付きQA、臨床用ヴィグネットの3つの臨床用検索済みの総合的拡張でカバー範囲を広げる。
このパイプラインは、システム全体の汚染、教師世代のゴールドラベル再サンプリング、および4つの物理パネルによるエンドツーエンドの検証を実行する。
LLM-as-a-judgeプロトコルを用いて,204名のヒトラッカーに対して校正を行った。
本手法を5つのFOベースモデル(Apertus-70B/8B-Instruct, OLMo-2-32B-SFT, EuroLLM-22B/9B-Instruct)に適用する。
メディトロンFOの派生型はベースよりも好まれる。
Apertus-70B-MeditronFOは、総合医療ベンチマークで+6.6ポイント(47.2%から53.8%)の改善を行い、新しいFO SoTAを設立した。
Gemma-3-27B-MeditronFO は LLM-as-a-judge 比較の58.6%で MedGemma よりも好まれ、HealthBench (58%対55.9%) で上回っている。
これらの結果は、完全にオープンなパイプラインは、監査や再現性を犠牲にすることなく、最先端のドメイン固有のパフォーマンスを実現することができることを示している。
関連論文リスト
- Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks [12.131182745922843]
Medmarksは、質問応答、情報抽出、医療計算、オープンな臨床推論にまたがる30のベンチマークを備えた、完全なオープンソース評価スイートである。
検証基準とLCM-as-a-Judgeを用いて,71構成の61モデルの体系的評価を行う。
論文 参考訳(メタデータ) (2026-05-02T12:29:03Z) - Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework [0.0]
医学質問応答における大規模言語モデル(LLM)は、平均的精度以上の要求を満たす。
Redditのようなオンライン健康コミュニティは、何百万人ものユーザーにとって、医療情報の主要な情報源となっている。
本稿では,小規模かつローカルにデプロイ可能なオープンウェイトLCMを医療質問応答上で評価するための,実用的なオープンソース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-12T08:56:15Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Optimizing Medical Question-Answering Systems: A Comparative Study of Fine-Tuned and Zero-Shot Large Language Models with RAG Framework [0.0]
本稿では,ドメイン固有知識検索とオープンソース LLM を組み合わせたRAG (Research-augmented Generation) ベースの医療QAシステムを提案する。
ローランド適応 (LoRA) を用いて, 最先端のオープンLCM (LLaMA2 と Falcon) を2つ微調整し, 効率的なドメイン特殊化を行う。
我々の微調整LLaMA2モデルはPubMedQAで71.8%の精度を実現し、55.4%のゼロショットベースラインを大幅に改善した。
論文 参考訳(メタデータ) (2025-12-05T16:38:47Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - LEME: Open Large Language Models for Ophthalmology with Advanced Reasoning and Clinical Validation [29.913581347375256]
大規模言語モデル(LLM)は、ドキュメントの作業量を削減し、臨床的な意思決定をサポートする、有望なパスを提供する。
本稿では,2段階プロセスで開発したオープンウェイトLLMのスイートであるLEMEについて述べる。
LEMEは、患者QA、相談、治療計画などのタスクにまたがる5つのゼロショットベンチマークで評価された。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。