論文の概要: Supervised Fine-Tuning or In-Context Learning? Evaluating LLMs for Clinical NER
- arxiv url: http://arxiv.org/abs/2510.22285v1
- Date: Sat, 25 Oct 2025 13:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.021024
- Title: Supervised Fine-Tuning or In-Context Learning? Evaluating LLMs for Clinical NER
- Title(参考訳): ファインチューニングとインコンテキスト学習の促進 : 臨床NERにおけるLLMの評価
- Authors: Andrei Baroian,
- Abstract要約: BERT-style encoders (BERT Base, BioClinicalBERT, RoBERTa-large), (ii) GPT-4o with few-shot in-context learning (ICL) under simple vs. complex prompts, (iii) GPT-4o with supervised fine-tuning (SFT)
すべてのモデルはCADECの5つのエンティティタイプよりも標準のNERメトリクスで評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study clinical Named Entity Recognition (NER) on the CADEC corpus and compare three families of approaches: (i) BERT-style encoders (BERT Base, BioClinicalBERT, RoBERTa-large), (ii) GPT-4o used with few-shot in-context learning (ICL) under simple vs.\ complex prompts, and (iii) GPT-4o with supervised fine-tuning (SFT). All models are evaluated on standard NER metrics over CADEC's five entity types (ADR, Drug, Disease, Symptom, Finding). RoBERTa-large and BioClinicalBERT offer limited improvements over BERT Base, showing the limit of these family of models. Among LLM settings, simple ICL outperforms a longer, instruction-heavy prompt, and SFT achieves the strongest overall performance (F1 $\approx$ 87.1%), albeit with higher cost. We find that the LLM achieve higher accuracy on simplified tasks, restricting classification to two labels.
- Abstract(参考訳): CADECコーパスにおける臨床名前付きエンティティ認識(NER)について検討し、3種類のアプローチを比較した。
(i)BERT型エンコーダ(BERTベース、BioClinicalBERT、RoBERTa-large)
(ii) GPT-4oは, 簡易対テキスト学習(ICL)で使用した。
複合プロンプト; 複合プロンプト
3)監督微調整(SFT)付きGPT-4o。
すべてのモデルはCADECの5つのエンティティタイプ(ADR、薬物、疾患、症状、発見)に対して標準NERメトリクスで評価される。
RoBERTa-largeとBioClinicalBERTはBERT Baseよりも限定的な改善を提供しており、これらのモデルのファミリーの限界を示している。
LLM設定の中では、単純なICLはより長く命令量の多いプロンプトより優れており、SFTはより高いコストで最高の全体的なパフォーマンス(F1$\approx$87.1%)を達成している。
LLMは2つのラベルに分類を制限し、単純化されたタスクに対して高い精度を達成する。
関連論文リスト
- Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - Beyond Scale: Small Language Models are Comparable to GPT-4 in Mental Health Understanding [12.703061322251093]
Small Language Models (SLM) は、Large Language Models (LLM) のプライバシ保護代替品である。
本稿では,現在SLMのメンタルヘルス理解能力について,分類タスクの体系的評価を通じて検討する。
我々の研究は、メンタルヘルス理解におけるSLMの可能性を強調し、センシティブなオンラインテキストデータを分析するための効果的なプライバシー保護ツールであることを示す。
論文 参考訳(メタデータ) (2025-07-09T02:40:02Z) - Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。
我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。
我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文 参考訳(メタデータ) (2025-05-30T20:12:51Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - A comparative study of zero-shot inference with large language models
and supervised modeling in breast cancer pathology classification [1.4715634464004446]
大規模言語モデル(LLM)は、有望な伝達学習能力を実証している。
LLMは、大きな注釈付きデータセットをキュレートする必要性を減らし、臨床NLP研究の実行を高速化する可能性を実証した。
これは、観察臨床研究におけるNLPに基づく変数の利用と結果の増加をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-01-25T02:05:31Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。