Fugu-MT 論文翻訳(概要): How far is Language Model from 100% Few-shot Named Entity Recognition in Medical Domain

論文の概要: How far is Language Model from 100% Few-shot Named Entity Recognition in Medical Domain

arxiv url: http://arxiv.org/abs/2307.00186v2
Date: Sun, 5 May 2024 16:58:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 01:16:13.269634
Title: How far is Language Model from 100% Few-shot Named Entity Recognition in Medical Domain
Title（参考訳）: 医療領域における言語モデルと名づけられたエンティティ認識
Authors: Mingchen Li, Rui Zhang,
Abstract要約: 本研究の目的は、医療領域における100%Few-shot NERのLMのパフォーマンスを比較して、医療領域における100%Few-shot NERのLMのパフォーマンスについて答えることである。以上の結果から, LLMは, 適切な例や適切な論理的枠組みの存在から, 数発のNERタスクにおいてSLMよりも優れていたことが示唆された。本研究では, 検索者, 関連事例, 思考者として機能し, ステップ・バイ・ステップの推論プロセスを採用する,textscRT (Retrieving and Thinking) という, シンプルで効果的な手法を提案する。
参考スコア（独自算出の注目度）: 14.635536657783613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in language models (LMs) have led to the emergence of powerful models such as Small LMs (e.g., T5) and Large LMs (e.g., GPT-4). These models have demonstrated exceptional capabilities across a wide range of tasks, such as name entity recognition (NER) in the general domain. (We define SLMs as pre-trained models with fewer parameters compared to models like GPT-3/3.5/4, such as T5, BERT, and others.) Nevertheless, their efficacy in the medical section remains uncertain and the performance of medical NER always needs high accuracy because of the particularity of the field. This paper aims to provide a thorough investigation to compare the performance of LMs in medical few-shot NER and answer How far is LMs from 100\% Few-shot NER in Medical Domain, and moreover to explore an effective entity recognizer to help improve the NER performance. Based on our extensive experiments conducted on 16 NER models spanning from 2018 to 2023, our findings clearly indicate that LLMs outperform SLMs in few-shot medical NER tasks, given the presence of suitable examples and appropriate logical frameworks. Despite the overall superiority of LLMs in few-shot medical NER tasks, it is important to note that they still encounter some challenges, such as misidentification, wrong template prediction, etc. Building on previous findings, we introduce a simple and effective method called \textsc{RT} (Retrieving and Thinking), which serves as retrievers, finding relevant examples, and as thinkers, employing a step-by-step reasoning process. Experimental results show that our proposed \textsc{RT} framework significantly outperforms the strong open baselines on the two open medical benchmark datasets
Abstract（参考訳）: 近年の言語モデル (LM) の進歩により、Small LM (eg , T5) や Large LM (eg , GPT-4) といった強力なモデルが出現している。これらのモデルは、一般ドメインにおける名前エンティティ認識(NER)など、幅広いタスクにまたがる例外的な機能を示している。 (SLM は T5 や BERT などの GPT-3/3.5/4 などのモデルに比べ,パラメータの少ない事前学習モデルと定義する。) しかし, 医療領域におけるNERの有効性は依然として不明であり, 医療NERの性能は, フィールドの特異性から常に高い精度が必要である。本研究の目的は,医療領域における 100 % のFew-shot NER から LM がどこまで遠いのか,また,NER の性能向上に有効な実体認識器を探索することである。 2018年から2023年までの16種類のNERモデルを用いて実施した広範囲な実験から,LLMが数発のNERタスクにおいてSLMよりも優れており,適切な例と適切な論理的枠組みが存在することが示唆された。医療NERタスクにおけるLLMの全体的な優位性にもかかわらず、誤識別やテンプレート予測の誤りなど、いくつかの課題に直面していることに注意する必要がある。過去の知見に基づいて,検索者,関連事例,思考者として機能し,ステップ・バイ・ステップの推論プロセスを用いた,シンプルで効果的な方法であるtextsc{RT} (Retrieving and Thinking)を導入する。実験結果から,提案したtextsc{RT} フレームワークは,2つのオープン医療ベンチマークデータセットにおいて,強力なオープンベースラインを著しく上回っていることが明らかとなった。

関連論文リスト

ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文参考訳（メタデータ） (2025-04-29T16:48:23Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。 6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。 MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文参考訳（メタデータ） (2024-07-16T19:32:23Z)
Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。 EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文参考訳（メタデータ） (2024-06-17T08:40:36Z)
D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文参考訳（メタデータ） (2024-05-07T10:11:14Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Few-shot clinical entity recognition in English, French and Spanish: masked language models outperform generative model prompting [4.832840259029653]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて好まれるソリューションとなっている。本研究は, 数発のNERに対して, 即発的な工学的手法を用いて, 生成性LLMを評価することを目的とする。我々は、英語、フランス語、スペイン語をカバーする14のNERデータセットを微調整し、プロンプトを用いた13の自己回帰モデルと16のマスキングモデルを比較した。プロンプトベースの自己回帰モデルは一般的なNERの競合F1を達成するが、マスクモデルに基づくより軽いbiLSTM-CRFタグにより臨床領域内では優れる。
論文参考訳（メタデータ） (2024-02-20T08:20:49Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks [7.542019351929903]
我々は4つの言語モデル(LLM)を評価する。英語における13のリアル・ワールド・クリニカル・バイオメディカル・自然言語処理(NLP)タスクについて
論文参考訳（メタデータ） (2023-07-22T15:58:17Z)
On Adversarial Examples for Biomedical NLP Tasks [4.7677261488999205]
医療用NERとSTSのための2つのよく知られたデータセットに対する逆評価手法を提案する。逆例を用いてモデルをトレーニングすることで,モデルの堅牢性を大幅に向上できることを示す。
論文参考訳（メタデータ） (2020-04-23T13:46:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。