論文の概要: Evaluation of the phi-3-mini SLM for identification of texts related to medicine, health, and sports injuries
- arxiv url: http://arxiv.org/abs/2504.08764v1
- Date: Mon, 31 Mar 2025 07:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-27 11:43:46.909103
- Title: Evaluation of the phi-3-mini SLM for identification of texts related to medicine, health, and sports injuries
- Title(参考訳): 医療・健康・スポーツ傷害関連テキストの同定のためのphi-3-mini SLMの評価
- Authors: Chris Brogly, Saif Rjaibi, Charlotte Liang, Erica Lam, Edward Wang, Adam Levitan, Sarah Paleczny, Michael Cusimano,
- Abstract要約: 小言語モデル(SLM)は、医療・健康関連目的の側面を文書やウェブから自動的にラベル付けし識別するために使われる可能性がある。
我々は,Microsoft の phi-3-mini-4kinstruct のトピックネススコアと,医療・健康関連テキスト1144点,スポーツ障害テキスト1117点のトピックネススコアを比較した。
- 参考スコア(独自算出の注目度): 0.0903415485511869
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Small Language Models (SLMs) have potential to be used for automatically labelling and identifying aspects of text data for medicine/health-related purposes from documents and the web. As their resource requirements are significantly lower than Large Language Models (LLMs), these can be deployed potentially on more types of devices. SLMs often are benchmarked on health/medicine-related tasks, such as MedQA, although performance on these can vary especially depending on the size of the model in terms of number of parameters. Furthermore, these test results may not necessarily reflect real-world performance regarding the automatic labelling or identification of texts in documents and the web. As a result, we compared topic-relatedness scores from Microsofts phi-3-mini-4k-instruct SLM to the topic-relatedness scores from 7 human evaluators on 1144 samples of medical/health-related texts and 1117 samples of sports injury-related texts. These texts were from a larger dataset of about 9 million news headlines, each of which were processed and assigned scores by phi-3-mini-4k-instruct. Our sample was selected (filtered) based on 1 (low filtering) or more (high filtering) Boolean conditions on the phi-3 SLM scores. We found low-moderate significant correlations between the scores from the SLM and human evaluators for sports injury texts with low filtering (\r{ho} = 0.3413, p < 0.001) and medicine/health texts with high filtering (\r{ho} = 0.3854, p < 0.001), and low significant correlation for medicine/health texts with low filtering (\r{ho} = 0.2255, p < 0.001). There was negligible, insignificant correlation for sports injury-related texts with high filtering (\r{ho} = 0.0318, p = 0.4466).
- Abstract(参考訳): 小言語モデル(SLM)は、文書やウェブから医療・健康関連の目的で、テキストデータの側面を自動的にラベル付けし識別するために使われる可能性がある。
リソース要求はLarge Language Models (LLM) よりも大幅に低いため、より多くのタイプのデバイスにデプロイすることができる。
SLMは、MedQAのような健康・医療関連のタスクでベンチマークされることが多いが、パラメータの数という点では、特にモデルのサイズによって異なる。
さらに、これらのテスト結果は、文書やウェブにおけるテキストの自動ラベリングや識別に関する実世界のパフォーマンスを必ずしも反映していない可能性がある。
その結果,Microsofts phi-3-mini-4k-instruct SLMのトピック関連スコアと,医療・健康関連テキスト1144点,スポーツ関連テキスト1117点のトピック関連スコアを比較した。
これらのテキストは、約900万のニュース見出しのより大きなデータセットから作成され、それぞれが処理され、phi-3-mini-4k-インストラクトによってスコアが割り当てられた。
試料は1(低フィルタリング)以上(高フィルタリング)のブール条件に基づいて, phi-3 SLMスコアから抽出した。
スポーツ障害テキストに対するSLMのスコアとヒト評価器のスコアとの間には,高いフィルタリング率 (\r{ho} = 0.3413, p < 0.001) と高いフィルタリング率 (\r{ho} = 0.3854, p < 0.001) と低いフィルタリング率 (\r{ho} = 0.2255, p < 0.001) の低相関が認められた。
スポーツ障害関連テキストと高いフィルタリング (\r{ho} = 0.0318, p = 0.4466) には無視的かつ無意味な相関関係が認められた。
関連論文リスト
- Revisiting the MIMIC-IV Benchmark: Experiments Using Language Models for Electronic Health Records [2.1046377530356764]
本稿では、電子健康記録のためのMIMIC-IVベンチマークを公開して再検討する。
私たちは、MIMIC-IVデータをHugging Faceデータセットライブラリに統合し、このコレクションの共有と使用を容易にします。
論文 参考訳(メタデータ) (2025-04-29T08:49:38Z) - TheBlueScrubs-v1, a comprehensive curated medical dataset derived from the internet [1.4043931310479378]
BlueScrubs-v1は、広範囲のインターネットコーパスから得られた2500億以上の医療トークンの収集されたデータセットである。
各テキストには、医療関連性、精度、事実の詳細、安全性と倫理基準を含む3つのLCMベースの品質スコアが割り当てられている。
このData Descriptorは、データセットの作成と検証について詳述し、医療AI研究の潜在的有用性について説明している。
論文 参考訳(メタデータ) (2025-04-01T22:25:19Z) - Comparing Llama3 and DeepSeekR1 on Biomedical Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの2つのLlama3-70BとDeepSeekR1-distill-Llama3-70Bの性能を比較した。
4つのタスクはソーシャルメディアからのデータであり、2つのタスクは電子健康記録からの臨床ノートにフォーカスする。
DeepSeekR1-distill-Llama3-70Bは、ほとんどのタスクで精度が良く、リコールの結果が混在している。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
NoLiMaは、NIAHテストを拡張したベンチマークである。
干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12のポピュラーな大言語モデルを評価する。
論文 参考訳(メタデータ) (2025-02-07T18:49:46Z) - Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.6908427615402]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。
エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。
デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文 参考訳(メタデータ) (2024-10-26T00:16:08Z) - Classification of Radiological Text in Small and Imbalanced Datasets in a Non-English Language [8.93554009307115]
自然言語処理は、非英語の小さなデータセットを含む現実世界のアプリケーションでは性能が劣る可能性がある。
BERT-like transformer, few-shot learning with sentence transformer (SetFit) などのNLPモデルのセットを評価し,大規模言語モデル (LLM) を誘導した。
以上の結果から,放射線学報告の対象領域で事前訓練されたBERT様モデルでは,このシナリオに最適な性能が得られることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T09:52:28Z) - SMLT-MUGC: Small, Medium, and Large Texts -- Machine versus User-Generated Content Detection and Comparison [2.7147912878168303]
我々は,(1)小規模(選挙,FIFA,ゲーム・オブ・スローンズからのツイート),(2)媒体(Wikipedia導入,PubMed要約),(3)大規模(OpenAI Webテキストデータセット)の4つのデータセットにおける機械学習アルゴリズムの性能を比較した。
その結果,非常に大きなパラメータを持つLCM(例えば1542万パラメータを持つGPT2のXL-1542変種など)は,従来の機械学習手法による検出が困難であることが示唆された。
言語学,人格,感情,偏見,道徳など,多次元にわたる人文・機械文の特徴について検討する。
論文 参考訳(メタデータ) (2024-06-28T22:19:01Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。