Fugu-MT 論文翻訳(概要): Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?

論文の概要: Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?

arxiv url: http://arxiv.org/abs/2411.10020v1
Date: Fri, 15 Nov 2024 07:54:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.971992
Title: Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?
Title（参考訳）: 臨床ノートからの情報抽出:我々は大規模言語モデルに切り替える準備はできているか?
Authors: Yan Hu, Xu Zuo, Yujia Zhou, Xueqing Peng, Jimin Huang, Vipina K. Keloth, Vincent J. Zhang, Ruey-Ling Weng, Qingyu Chen, Xiaoqian Jiang, Kirk E. Roberts, Hua Xu,
Abstract要約: 大規模言語モデル(LLM)は生成タスクに優れるが、抽出タスクのパフォーマンスについては議論が続いている。本研究は,オープンソースLLMを用いた包括的臨床用IEシステムの開発と評価を行った最初の試みである。
参考スコア（独自算出の注目度）: 16.312594953592665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Backgrounds: Information extraction (IE) is critical in clinical natural language processing (NLP). While large language models (LLMs) excel on generative tasks, their performance on extractive tasks remains debated. Methods: We investigated Named Entity Recognition (NER) and Relation Extraction (RE) using 1,588 clinical notes from four sources (UT Physicians, MTSamples, MIMIC-III, and i2b2). We developed an annotated corpus covering 4 clinical entities and 16 modifiers, and compared instruction-tuned LLaMA-2 and LLaMA-3 against BiomedBERT in terms of performance, generalizability, computational resources, and throughput to BiomedBERT. Results: LLaMA models outperformed BiomedBERT across datasets. With sufficient training data, LLaMA showed modest improvements (1% on NER, 1.5-3.7% on RE); improvements were larger with limited training data. On unseen i2b2 data, LLaMA-3-70B outperformed BiomedBERT by 7% (F1) on NER and 4% on RE. However, LLaMA models required more computing resources and ran up to 28 times slower. We implemented "Kiwi," a clinical IE package featuring both models, available at https://kiwi.clinicalnlp.org/. Conclusion: This study is among the first to develop and evaluate a comprehensive clinical IE system using open-source LLMs. Results indicate that LLaMA models outperform BiomedBERT for clinical NER and RE but with higher computational costs and lower throughputs. These findings highlight that choosing between LLMs and traditional deep learning methods for clinical IE applications should remain task-specific, taking into account both performance metrics and practical considerations such as available computing resources and the intended use case scenarios.
Abstract（参考訳）: 背景:情報抽出(IE)は臨床自然言語処理(NLP)において重要である。大規模言語モデル(LLM)は生成タスクに優れるが、抽出タスクのパフォーマンスについては議論が続いている。方法:4つの情報源(UTphysicians, MTSamples, MIMIC-III, i2b2)から得られた1,588個の臨床記録を用いて,NERとREについて検討した。我々は,4つの臨床組織と16の修飾体を含む注釈付きコーパスを開発し,BiomedBERTとLLaMA-2とLLaMA-3を比較した。結果: LLaMAモデルはデータセット間でBiomedBERTを上回った。十分なトレーニングデータでは、LLaMAは控えめな改善(NERは1%、REは1.5-3.7%)を示し、限られたトレーニングデータでは改善が大きかった。 i2b2データでは, LLaMA-3-70BはNERでは7%, REでは4%, BiomedBERTでは7%であった。しかし、LLaMAモデルはより多くのコンピューティングリソースを必要とし、最大28倍の速度で動作した。両モデルを含む臨床用IEパッケージである"Kiwi"を、https://kiwi.clinicalnlp.org/.comで公開しました。結論: 本研究は, オープンソースLLMを用いた総合的な臨床用IEシステムの開発と評価を初めて行ったものである。 LLaMAモデルは臨床用NERとREでBiomedBERTより優れているが,計算コストは高く,スループットも低い。これらの結果から,臨床用IEアプリケーションにおけるLCMと従来のディープラーニング手法のどちらを選択するかは,パフォーマンス指標と,利用可能なコンピューティングリソースや想定されたユースケースシナリオといった実践的考察の両方を考慮して,タスク特化されなければならないことが示唆された。

関連論文リスト

Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings [3.799555574114989]
医療報告には豊富な臨床情報が含まれているが、しばしば非構造化され、ドメイン固有の言語で書かれる。本研究は、オランダにおける28の臨床情報抽出タスクを含むDRAGONベンチマークにおいて、9つのオープンソースジェネレーティブLCMを評価した。我々は,オープンソースのジェネレーティブLLMを用いた情報抽出フレームワークであるtextttllm_extractinator を開発した。
論文参考訳（メタデータ） (2025-07-28T14:12:37Z)
Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。 SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文参考訳（メタデータ） (2025-07-28T11:57:52Z)
Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文参考訳（メタデータ） (2025-05-30T20:12:51Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [10.071956824618418]
大規模言語モデル(LLM)は医療応用に大きな期待を持ち、急速に進化している。既存のベンチマークのほとんどは、医療試験スタイルの質問やPubMedから派生したテキストに依存している。 9言語にわたる実世界の臨床データソースから得られた87のタスクからなる総合的なベンチマークBRIDGEを提案する。
論文参考訳（メタデータ） (2025-04-28T04:13:18Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Leveraging Large Language Models for Medical Information Extraction and Query Generation [2.1793134762413433]
本稿では,大言語モデル(LLM)を臨床試験検索プロセスに統合するシステムを提案する。クエリ生成には6つのLCMを評価し,最小限の計算資源を必要とする,オープンソースと比較的小さなモデルに着目した。
論文参考訳（メタデータ） (2024-10-31T12:01:51Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文参考訳（メタデータ） (2024-08-15T03:56:40Z)
ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks [22.539696532725607]
LLM(Large Language Models)は、医学においてますます普及している。しかし, 臨床診断における有用性は未評価のままである。本研究は,GPTをベースとしたLCM9,BERTをベースとしたモデル5,非構造化臨床ノートと構造化電子健康記録の従来手法7をベンチマークすることで,この問題に対処する。
論文参考訳（メタデータ） (2024-07-26T06:09:10Z)
Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文参考訳（メタデータ） (2024-06-26T03:56:21Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note Generation with On-Policy Reinforcement Learning [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。教師モデルとしてGemini 1.0 Proを用いて、政治強化学習を行うための新しいアプローチであるDistillDirectを導入する。我々のモデルであるLLaMA-Clinicは、医師が作成したものと同等の品質の臨床メモを生成することができる。
論文参考訳（メタデータ） (2024-04-25T15:34:53Z)
TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。本手法は,様々なベンチマーク上での局所モデル性能を向上させる。また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文参考訳（メタデータ） (2024-03-15T14:36:38Z)
Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
Benchmarking and Analyzing In-context Learning, Fine-tuning and Supervised Learning for Biomedical Knowledge Curation: a focused study on chemical entities of biological interest [2.8216292452982668]
本研究は、インコンテキスト学習(ICL)、ファインチューニング(FT)、教師あり学習(ChML)の3つのNLPパラダイムを比較し、分析する。 ICLでは、GPT-4、GPT-3.5、BioGPTの3つのプロンプト戦略が採用された。 MLでは、ランダムフォレストとLong-Short Term Memoryモデルのトレーニングに6つの埋め込みモデルが使用された。
論文参考訳（メタデータ） (2023-12-20T12:46:44Z)
BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing [10.698756010878688]
25,005の命令から大規模言語モデル(LLM)を作成する。命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文参考訳（メタデータ） (2023-10-30T19:38:50Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2023-05-28T13:00:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。