論文の概要: Using LLMs to label medical papers according to the CIViC evidence model
- arxiv url: http://arxiv.org/abs/2407.04466v1
- Date: Fri, 5 Jul 2024 12:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:40:23.383044
- Title: Using LLMs to label medical papers according to the CIViC evidence model
- Title(参考訳): LLMを用いたCIViCエビデンスモデルによる医療論文のラベル付け
- Authors: Markus Hisch, Xing David Wang,
- Abstract要約: 医学NLP分野におけるシーケンス分類問題CIViCエビデンスについて紹介する。
CIViCエビデンスデータセット上でBERTとRoBERTaの事前学習チェックポイントを微調整する。
上記のBERTライクなモデルとOpenAIのGPT-4を数ショットで比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the sequence classification problem CIViC Evidence to the field of medical NLP. CIViC Evidence denotes the multi-label classification problem of assigning labels of clinical evidence to abstracts of scientific papers which have examined various combinations of genomic variants, cancer types, and treatment approaches. We approach CIViC Evidence using different language models: We fine-tune pretrained checkpoints of BERT and RoBERTa on the CIViC Evidence dataset and challenge their performance with models of the same architecture which have been pretrained on domain-specific text. In this context, we find that BiomedBERT and BioLinkBERT can outperform BERT on CIViC Evidence (+0.8% and +0.9% absolute improvement in class-support weighted F1 score). All transformer-based models show a clear performance edge when compared to a logistic regression trained on bigram tf-idf scores (+1.5 - 2.7% improved F1 score). We compare the aforementioned BERT-like models to OpenAI's GPT-4 in a few-shot setting (on a small subset of our original test dataset), demonstrating that, without additional prompt-engineering or fine-tuning, GPT-4 performs worse on CIViC Evidence than our six fine-tuned models (66.1% weighted F1 score compared to 71.8% for the best fine-tuned model). However, performance gets reasonably close to the benchmark of a logistic regression model trained on bigram tf-idf scores (67.7% weighted F1 score).
- Abstract(参考訳): 医学NLP分野におけるシーケンス分類問題CIViCエビデンスについて紹介する。
CIViCエビデンス(CIViC Evidence)は、ゲノム変異、がんの種類、治療アプローチの様々な組み合わせを調査した科学論文の要約に臨床証拠のラベルを割り当てる多ラベル分類問題である。
私たちは、CIViC Evidenceデータセット上でBERTとRoBERTaの事前トレーニング済みチェックポイントを微調整し、ドメイン固有のテキストで事前トレーニングされた同じアーキテクチャのモデルでそれらのパフォーマンスに挑戦します。
この文脈では、BiomedBERTとBioLinkBERTはCIViCエビデンスにおいてBERTを上回り(クラス支援重み付きF1スコアでは+0.8%、+0.9%)。
すべてのトランスフォーマーベースのモデルは、Bigram tf-idfスコア(+1.5 - 2.7%改良されたF1スコア)でトレーニングされたロジスティック回帰と比較すると、明確なパフォーマンスエッジを示す。
上記のBERTライクなモデルとOpenAIのGPT-4を(最初のテストデータセットのごく一部で)数ショットで比較し、追加のプロンプトエンジニアリングや微調整なしでは、GPT-4がCIViCエビデンス(最高の微調整モデルでは71.8%と、66.1%の重み付きF1スコア)よりも悪くなることを示した。
しかし、性能はBigram tf-idfスコア(67.7%の重み付きF1スコア)でトレーニングされたロジスティック回帰モデルのベンチマークにかなり近い。
関連論文リスト
- Ambient AI Scribing Support: Comparing the Performance of Specialized AI Agentic Architecture to Leading Foundational Models [0.0]
Sporo HealthのAI Scribeは、医療用スクラブ用に微調整されたプロプライエタリなモデルである。
臨床医が提供したSOAPノートを基礎的事実として, パートナー診療所の非特定患者記録を分析した。
スポロは全てのモデルに勝り、最高リコール(73.3%)、精度(78.6%)、F1スコア(75.3%)を最低パフォーマンス差で達成した。
論文 参考訳(メタデータ) (2024-11-11T04:45:48Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - Large Language Models to Identify Social Determinants of Health in
Electronic Health Records [2.168737004368243]
健康の社会的決定因子(SDoH)は、患者の結果に重要な影響を与えるが、電子健康記録(EHR)から不完全に収集される。
本研究では,EHRにおける自由テキストからSDoHを抽出する大規模言語モデルについて検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
論文 参考訳(メタデータ) (2023-08-11T19:18:35Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - Text Mining Drug/Chemical-Protein Interactions using an Ensemble of BERT
and T5 Based Models [3.7462395049372894]
バイオクリーティブVIIチャレンジのトラック1では、参加者が薬物と化学薬品とタンパク質の相互作用を識別するよう求められている。
本稿では,BERTに基づく文分類手法と,T5モデルを用いたより新しいテキスト・テキスト分類手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:14:06Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。