論文の概要: Evaluation of the phi-3-mini SLM for identification of texts related to medicine, health, and sports injuries
- arxiv url: http://arxiv.org/abs/2504.08764v1
- Date: Mon, 31 Mar 2025 07:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 06:04:34.446611
- Title: Evaluation of the phi-3-mini SLM for identification of texts related to medicine, health, and sports injuries
- Title(参考訳): 医療・健康・スポーツ傷害関連テキストの同定のためのphi-3-mini SLMの評価
- Authors: Chris Brogly, Saif Rjaibi, Charlotte Liang, Erica Lam, Edward Wang, Adam Levitan, Sarah Paleczny, Michael Cusimano,
- Abstract要約: 小言語モデル(SLM)は、医療・健康関連目的の側面を文書やウェブから自動的にラベル付けし識別するために使われる可能性がある。
我々は,Microsoft の phi-3-mini-4kinstruct のトピックネススコアと,医療・健康関連テキスト1144点,スポーツ障害テキスト1117点のトピックネススコアを比較した。
- 参考スコア(独自算出の注目度): 0.0903415485511869
- License:
- Abstract: Small Language Models (SLMs) have potential to be used for automatically labelling and identifying aspects of text data for medicine/health-related purposes from documents and the web. As their resource requirements are significantly lower than Large Language Models (LLMs), these can be deployed potentially on more types of devices. SLMs often are benchmarked on health/medicine-related tasks, such as MedQA, although performance on these can vary especially depending on the size of the model in terms of number of parameters. Furthermore, these test results may not necessarily reflect real-world performance regarding the automatic labelling or identification of texts in documents and the web. As a result, we compared topic-relatedness scores from Microsofts phi-3-mini-4k-instruct SLM to the topic-relatedness scores from 7 human evaluators on 1144 samples of medical/health-related texts and 1117 samples of sports injury-related texts. These texts were from a larger dataset of about 9 million news headlines, each of which were processed and assigned scores by phi-3-mini-4k-instruct. Our sample was selected (filtered) based on 1 (low filtering) or more (high filtering) Boolean conditions on the phi-3 SLM scores. We found low-moderate significant correlations between the scores from the SLM and human evaluators for sports injury texts with low filtering (\r{ho} = 0.3413, p < 0.001) and medicine/health texts with high filtering (\r{ho} = 0.3854, p < 0.001), and low significant correlation for medicine/health texts with low filtering (\r{ho} = 0.2255, p < 0.001). There was negligible, insignificant correlation for sports injury-related texts with high filtering (\r{ho} = 0.0318, p = 0.4466).
- Abstract(参考訳): 小言語モデル(SLM)は、文書やウェブから医療・健康関連の目的で、テキストデータの側面を自動的にラベル付けし識別するために使われる可能性がある。
リソース要求はLarge Language Models (LLM) よりも大幅に低いため、より多くのタイプのデバイスにデプロイすることができる。
SLMは、MedQAのような健康・医療関連のタスクでベンチマークされることが多いが、パラメータの数という点では、特にモデルのサイズによって異なる。
さらに、これらのテスト結果は、文書やウェブにおけるテキストの自動ラベリングや識別に関する実世界のパフォーマンスを必ずしも反映していない可能性がある。
その結果,Microsofts phi-3-mini-4k-instruct SLMのトピック関連スコアと,医療・健康関連テキスト1144点,スポーツ関連テキスト1117点のトピック関連スコアを比較した。
これらのテキストは、約900万のニュース見出しのより大きなデータセットから作成され、それぞれが処理され、phi-3-mini-4k-インストラクトによってスコアが割り当てられた。
試料は1(低フィルタリング)以上(高フィルタリング)のブール条件に基づいて, phi-3 SLMスコアから抽出した。
スポーツ障害テキストに対するSLMのスコアとヒト評価器のスコアとの間には,高いフィルタリング率 (\r{ho} = 0.3413, p < 0.001) と高いフィルタリング率 (\r{ho} = 0.3854, p < 0.001) と低いフィルタリング率 (\r{ho} = 0.2255, p < 0.001) の低相関が認められた。
スポーツ障害関連テキストと高いフィルタリング (\r{ho} = 0.0318, p = 0.4466) には無視的かつ無意味な相関関係が認められた。
関連論文リスト
- Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.6908427615402]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。
エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。
デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文 参考訳(メタデータ) (2024-10-26T00:16:08Z) - Classification of Radiological Text in Small and Imbalanced Datasets in a Non-English Language [8.93554009307115]
自然言語処理は、非英語の小さなデータセットを含む現実世界のアプリケーションでは性能が劣る可能性がある。
BERT-like transformer, few-shot learning with sentence transformer (SetFit) などのNLPモデルのセットを評価し,大規模言語モデル (LLM) を誘導した。
以上の結果から,放射線学報告の対象領域で事前訓練されたBERT様モデルでは,このシナリオに最適な性能が得られることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T09:52:28Z) - Utility of Multimodal Large Language Models in Analyzing Chest X-ray with Incomplete Contextual Information [0.8602553195689513]
大規模言語モデル (LLM) は, 臨床現場での利用が進んでいるが, 不完全な放射線学報告に悩まされることがある。
胸部X線撮影では,マルチモーダルLSM(テキストと画像を用いた)が精度と理解を向上できるかどうかを検討した。
論文 参考訳(メタデータ) (2024-09-20T01:42:53Z) - SMLT-MUGC: Small, Medium, and Large Texts -- Machine versus User-Generated Content Detection and Comparison [2.7147912878168303]
我々は,(1)小規模(選挙,FIFA,ゲーム・オブ・スローンズからのツイート),(2)媒体(Wikipedia導入,PubMed要約),(3)大規模(OpenAI Webテキストデータセット)の4つのデータセットにおける機械学習アルゴリズムの性能を比較した。
その結果,非常に大きなパラメータを持つLCM(例えば1542万パラメータを持つGPT2のXL-1542変種など)は,従来の機械学習手法による検出が困難であることが示唆された。
言語学,人格,感情,偏見,道徳など,多次元にわたる人文・機械文の特徴について検討する。
論文 参考訳(メタデータ) (2024-06-28T22:19:01Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for
Inferring Online Health Texts [0.0]
低リソースの健康NLPタスクをモデル化する手段として,抽象表現(AMR)グラフを用いる。
AMRは、多文入力を表現し、複雑な用語から抽象化し、長距離関係をモデル化するため、オンラインの健康テキストをモデル化するのに適している。
本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-18T15:37:30Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。