論文の概要: Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian
- arxiv url: http://arxiv.org/abs/2602.17475v1
- Date: Thu, 19 Feb 2026 15:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.134266
- Title: Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian
- Title(参考訳): 医学的NLPのための小型LCM:イタリアにおけるFew-Shot, Constraint Decoding, Fine-Tuning, Continual Pre-Trainingの体系的分析
- Authors: Pietro Ferrazzi, Mattia Franzin, Alberto Lavelli, Bernardo Magnini,
- Abstract要約: 大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスクに一貫して優れている。
本研究では,「小さい」LSMが,競争精度を維持しつつ,効果的に医療業務を遂行できるかどうかを検討する。
Llama-3, Gemma-3, Qwen3の3つの主要なNLPタスクのモデルについて検討した。
- 参考スコア(独自算出の注目度): 2.415128123637063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) consistently excel in diverse medical Natural Language Processing (NLP) tasks, yet their substantial computational requirements often limit deployment in real-world healthcare settings. In this work, we investigate whether "small" LLMs (around one billion parameters) can effectively perform medical tasks while maintaining competitive accuracy. We evaluate models from three major families-Llama-3, Gemma-3, and Qwen3-across 20 clinical NLP tasks among Named Entity Recognition, Relation Extraction, Case Report Form Filling, Question Answering, and Argument Mining. We systematically compare a range of adaptation strategies, both at inference time (few-shot prompting, constraint decoding) and at training time (supervised fine-tuning, continual pretraining). Fine-tuning emerges as the most effective approach, while the combination of few-shot prompting and constraint decoding offers strong lower-resource alternatives. Our results show that small LLMs can match or even surpass larger baselines, with our best configuration based on Qwen3-1.7B achieving an average score +9.2 points higher than Qwen3-32B. We release a comprehensive collection of all the publicly available Italian medical datasets for NLP tasks, together with our top-performing models. Furthermore, we release an Italian dataset of 126M words from the Emergency Department of an Italian Hospital, and 175M words from various sources that we used for continual pre-training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスクを一貫して排他的に拡張するが、その相当な計算要求は、現実の医療環境におけるデプロイメントを制限することが多い。
本研究では,「小さい」LSM(約10億のパラメータ)が,競争精度を維持しつつ,効果的に医療業務を行うことができるかどうかを検討する。
Llama-3, Gemma-3, Qwen3の3つの主要なNLPタスクのうち, 名前付きエンティティ認識, 関係抽出, 事例報告フォームフィリング, 質問応答, 問合せマイニングの20項目のモデルを評価した。
我々は,推論時間(フェーショットプロンプト,制約デコード)とトレーニング時間(教師付き微調整,継続事前訓練)の順応戦略を体系的に比較した。
ファインチューニングは最も効果的なアプローチとして現れ、数発のプロンプトと制約デコードの組み合わせは、強力な低リソースの代替手段を提供する。
以上の結果から,小型LLMはQwen3-1.7Bを基準として,Qwen3-32Bよりも平均スコア+9.2ポイント高く設定できることがわかった。
当社は、NLPタスク用の公開可能なイタリアの医療データセットの包括的なコレクションと、最高のパフォーマンスモデルをリリースしています。
さらに,イタリア病院救急部から1億1600万語,および継続事前訓練に使用した各種資料から1億7500万語を抽出した。
関連論文リスト
- Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文 参考訳(メタデータ) (2025-11-13T08:13:23Z) - Evaluating Open-Weight Large Language Models for Structured Data Extraction from Narrative Medical Reports Across Multiple Use Cases and Languages [2.3429123017483016]
大規模言語モデル (LLMs) は、自由テキスト臨床記録から構造化された情報を抽出するためにますます使われている。
当科では6症例に15例のオープンウェイトLSMを報告した。
論文 参考訳(メタデータ) (2025-11-03T12:32:01Z) - Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA [0.6015898117103068]
MedVQA (Medicical Visual Question Answering) は、医療画像上の自然言語クエリーを、臨床的な意思決定と患者医療を支援する。
本稿では,汎用的な命令調整型大規模言語モデルと検索拡張生成(RAG)フレームワークを用いたMasonNLPシステムを提案する。
19チーム中3位、51チームが平均41.37%の成績を残した。
論文 参考訳(メタデータ) (2025-10-12T07:03:58Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Qibo: A Large Language Model for Traditional Chinese Medicine [10.394665777883064]
伝統的な中国医学には、理論と近代医学の根本的な違いのような課題がある。
本研究では,継続的事前学習と教師付き微調整を組み合わせた2段階学習手法を提案する。
本研究の特筆すべき貢献は,TCM専用の2GBコーパスの処理である。
論文 参考訳(メタデータ) (2024-03-24T07:48:05Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。