論文の概要: Teaching LLMs Brazilian Healthcare: Injecting Knowledge from Official Clinical Guidelines
- arxiv url: http://arxiv.org/abs/2605.01077v1
- Date: Fri, 01 May 2026 20:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.570218
- Title: Teaching LLMs Brazilian Healthcare: Injecting Knowledge from Official Clinical Guidelines
- Title(参考訳): LLMs Brazil Healthcare: Injecting Knowledge from official Clinical Guidelines
- Authors: Hugo Abonizio, Filipe Rocha Lopes, Roberto Lotufo, Rodrigo Nogueira,
- Abstract要約: ブラジルの臨床領域にQwen2.5-14B-Instructを適用した。
健康ベンチBR1,780名,PCDT-QA890名であった。
当社のベストモデルはHealthBench-BRで83.9%、PCDT-QAで85.4%、GPT-5.2、Claude Sonnet 4.6、Gemini 3.1 Pro、Google AI OverviewのWebグラウンド付きRAGを上回っています。
- 参考スコア(独自算出の注目度): 7.293411729900003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brazil's Unified Health System (SUS) relies on official clinical guidelines that define diagnostic criteria, treatments, dosages, and monitoring procedures for over 200 million citizens. Yet current LLMs perform poorly on this guideline-specific knowledge, and no benchmark evaluates clinical recall grounded in Brazilian Portuguese protocols. We address this gap by adapting Qwen2.5-14B-Instruct to the Brazilian clinical domain. From 178 official guidelines (~5.4M tokens), we generate ~70M tokens of synthetic data in three formats -- rephrases, wiki-style articles, and question-answer pairs -- using four generator LLMs. We then apply continual pre-training followed by Group Relative Policy Optimization (GRPO). We introduce HealthBench-BR, with 1,780 balanced true/false clinical assertions, and PCDT-QA, with 890 open-ended clinical questions scored by an LLM judge. Our best model achieves 83.9% on HealthBench-BR and 85.4% on PCDT-QA, outperforming GPT-5.2, Claude Sonnet 4.6, Gemini 3.1 Pro, and Google AI Overview's web-grounded RAG despite having only 14B parameters. Ablations show that generator diversity and reinforcement learning are critical to these gains. We release all datasets, benchmarks, and model weights to support reproducible clinical NLP research for Brazilian Portuguese. Code, data, and model weights are available at https://github.com/hugoabonizio/clinical-protocols-br
- Abstract(参考訳): ブラジルの統一健康システム(SUS)は、診断基準、治療、服用、および2億人以上の市民の監視手順を定義する公式な臨床ガイドラインに依存している。
しかし、現在のLSMは、このガイドライン固有の知識に乏しく、ブラジルのポルトガル語プロトコルに根ざした臨床的リコールを評価するベンチマークは存在しない。
ブラジルのクリニカルドメインにQwen2.5-14B-Instructを適用することで,このギャップに対処する。
178の公式ガイドライン(約5.4Mトークン)から、私たちは4つのジェネレータ LLM を使用して、3つのフォーマット(リフレーズ、wikiスタイルの記事、質問応答ペア)で合成データの約70Mトークンを生成します。
次に,グループ相対政策最適化(GRPO)による継続事前学習を適用した。
LLMの審査員による890のオープンエンド臨床質問票と1,780のアサーションとPCDT-QAを用いたHealthBench-BRを導入する。
ベストモデルはHealthBench-BRで83.9%、PCDT-QAで85.4%、GPT-5.2、Claude Sonnet 4.6、Gemini 3.1 Pro、Google AI OverviewのWebグラウンド付きRAGをわずか14Bパラメータで上回っている。
アブレーションは、ジェネレータの多様性と強化学習がこれらの利益に不可欠であることを示している。
ブラジルポルトガル語の再現可能なNLP研究を支援するため、すべてのデータセット、ベンチマーク、モデルウェイトをリリースする。
コード、データ、モデルウェイトはhttps://github.com/hugoabonizio/clinical-protocols-brで入手できる。
関連論文リスト
- Clinical named entity recognition in the Portuguese language: a benchmark of modern BERT models and LLMs [1.6114494927075578]
ポルトガルにおける臨床NERに対するBERTモデルと大規模言語モデル(LLM)の評価を行った。
我々は,BioBERTpt,BERTimbau,ModernBERT,mmBERTをGPT-5,Gemini-2.5などのLLMと比較した。
mmBERTベースのモデルは最高の性能(マイクロF1 = 0.76)を達成し、他の全てのモデルより優れていた。
論文 参考訳(メタデータ) (2026-03-27T15:22:07Z) - A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations [60.2076951536797]
大規模言語モデル(LLM)は、医療シナリオにますます多くデプロイされている。
LLMが会話中に臨床ガイドラインを特定・遵守できるのかは不明確である。
CPGBenchは、LSMの臨床ガイドラインの検出と付着能力をベンチマークする自動フレームワークである。
論文 参考訳(メタデータ) (2026-03-26T09:00:55Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper [0.609562679184219]
大規模言語モデル(LLM)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果は、まだ探索されていない。
ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。
本手法は,ケニアの全国ガイドラインに臨床質問を根拠として,地域標準との整合性を確保するためにRAG (Regegration augmented generation) を用いている。
論文 参考訳(メタデータ) (2025-07-19T13:25:26Z) - A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。
SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。
本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T21:40:21Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。