論文の概要: Comparing Llama3 and DeepSeekR1 on Biomedical Text Classification Tasks
- arxiv url: http://arxiv.org/abs/2503.15169v1
- Date: Wed, 19 Mar 2025 12:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:48.170717
- Title: Comparing Llama3 and DeepSeekR1 on Biomedical Text Classification Tasks
- Title(参考訳): バイオメディカルテキスト分類課題におけるLlama3とDeepSeekR1の比較
- Authors: Yuting Guo, Abeed Sarker,
- Abstract要約: 本研究では,オープンソースの2つのLlama3-70BとDeepSeekR1-distill-Llama3-70Bの性能を比較した。
4つのタスクはソーシャルメディアからのデータであり、2つのタスクは電子健康記録からの臨床ノートにフォーカスする。
DeepSeekR1-distill-Llama3-70Bは、ほとんどのタスクで精度が良く、リコールの結果が混在している。
- 参考スコア(独自算出の注目度): 2.7729041396205014
- License:
- Abstract: This study compares the performance of two open-source large language models (LLMs)-Llama3-70B and DeepSeekR1-distill-Llama3-70B-on six biomedical text classification tasks. Four tasks involve data from social media, while two tasks focus on clinical notes from electronic health records, and all experiments were performed in zero-shot settings. Performance metrics, including precision, recall, and F1 scores, were measured for each task, along with their 95% confidence intervals. Results demonstrated that DeepSeekR1-distill-Llama3-70B generally performs better in terms of precision on most tasks, with mixed results on recall. While the zero-shot LLMs demonstrated high F1 scores for some tasks, they grossly underperformed on others, for data from both sources. The findings suggest that model selection should be guided by the specific requirements of the health-related text classification tasks, particularly when considering the precision-recall trade-offs, and that, in the presence of annotated data, supervised classification approaches may be more reliable than zero-shot LLMs.
- Abstract(参考訳): 本研究では,2つのオープンソースの大規模言語モデル(LLM)とDeepSeekR1-distill-Llama3-70Bの6つのバイオメディカルテキスト分類タスクの性能を比較した。
4つのタスクはソーシャルメディアのデータであり、2つのタスクは電子健康記録からの臨床ノートに焦点を合わせ、すべての実験はゼロショット設定で行われた。
各タスクの精度、リコール、F1スコアなどのパフォーマンス指標と95%の信頼区間を測定した。
その結果、DeepSeekR1-distill-Llama3-70Bは、ほとんどのタスクにおいて精度が良く、リコール時に混合の結果が得られた。
ゼロショットLLMは、いくつかのタスクで高いF1スコアを示したが、両方のソースからのデータでは、他のタスクでは大幅にパフォーマンスが低下した。
以上の結果から,健康関連テキスト分類タスクの具体的要件,特に高精度リコールトレードオフを考慮に入れた場合には,モデル選択を導出すべきであり,注釈付きデータが存在する場合には,教師付き分類手法の方がゼロショットLCMよりも信頼性が高い可能性が示唆された。
関連論文リスト
- Fine-Tuning Open-Source Large Language Models to Improve Their Performance on Radiation Oncology Tasks: A Feasibility Study to Investigate Their Potential Clinical Applications in Radiation Oncology [23.986096971629777]
大規模言語モデルは、複雑なテキスト情報を処理する際、顕著な能力を示した。
本研究の目的は、ドメイン知識を持つ微調整LDMがタスクの性能を向上させるかどうかを検討することである。
片面のウィルコクソンサインランク試験は、統計的に結果を分析するために使用された。
論文 参考訳(メタデータ) (2025-01-28T20:37:32Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - Evaluating Large Language Models for Public Health Classification and Extraction Tasks [0.3545046504280562]
本稿では,自由テキストの分類と抽出を含む公衆衛生業務におけるLarge Language Models(LLMs)の評価について述べる。
ゼロショット・イン・コンテクスト学習を用いて,全タスクにまたがるオープンウェイトLLMを11個評価した。
LLMが公衆衛生の専門家にとって、様々な無料テキストソースから情報を抽出するのに有用なツールであることを示す有望な兆候を見出した。
論文 参考訳(メタデータ) (2024-05-23T16:33:18Z) - Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement [10.611952462532908]
マルチモーダルECG表現学習(MERL)は、テキストプロンプトでゼロショットECG分類を行うことができる。
本稿では,外部の専門知識データベースを利用した臨床知識向上技術(CKEPE)アプローチを提案する。
MERLは、ゼロショット分類における平均75.2%のAUCスコアを(トレーニングデータなしで)達成し、10%の注釈付きトレーニングデータを持つ線形プローブeSSLメソッドよりも3.2%高い。
論文 参考訳(メタデータ) (2024-03-11T12:28:55Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。