論文の概要: Using text embedding models as text classifiers with medical data
- arxiv url: http://arxiv.org/abs/2402.16886v2
- Date: Mon, 02 Dec 2024 21:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:58.470044
- Title: Using text embedding models as text classifiers with medical data
- Title(参考訳): 医療データを用いたテキスト埋め込みモデルを用いたテキスト分類
- Authors: Rishabh Goel,
- Abstract要約: 医療用テキストデータを用いてテキストのエンコーディングと分類を行う手段として,ベクトルデータベースと埋め込みモデルの利用について検討する。
しかし,データベース内の単純なデータによるクエリは性能に最適であった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The advent of Large Language Models (LLMs) is promising and LLMs have been applied to numerous fields. However, it is not trivial to implement LLMs in the medical field, due to the high standards for precision and accuracy. Currently, the diagnosis of medical ailments must be done by hand, as it is costly to build a sufficiently broad LLM that can diagnose a wide range of diseases. Here, we explore the use of vector databases and embedding models as a means of encoding and classifying text with medical text data without the need to train a new model altogether. We used various LLMs to generate the medical data, then encoded the data with a text embedding model and stored it in a vector database. We hypothesized that higher embedding dimensions coupled with descriptive data in the vector database would lead to better classifications and designed a robustness test to test our hypothesis. By using vector databases and text embedding models to classify a clinician's notes on a patient presenting with a certain ailment, we showed that these tools can be successful at classifying medical text data. We found that a higher embedding dimension did indeed yield better results, however, querying with simple data in the database was optimal for performance. We have shown in this study the applicability of text embedding models and vector databases on a small scale, and our work lays the groundwork for applying these tools on a larger scale.
- Abstract(参考訳): LLM(Large Language Models)の出現は有望であり、LLMは多くの分野に適用されている。
しかし、精度と精度の基準が高いため、医療分野でのLSMの実装は容易ではない。
現在、医学的障害の診断は手作業で行う必要があり、広範囲の疾患を診断できる十分に広いLSMを構築するのに費用がかかる。
本稿では,新しいモデルを全く訓練することなく,医療用テキストデータによるテキストのエンコーディングと分類を行う手段として,ベクトルデータベースと埋め込みモデルの利用について検討する。
各種LSMを用いて医療データを生成し,テキスト埋め込みモデルを用いてデータを符号化し,ベクトルデータベースに格納した。
ベクトルデータベースに記述データと結合した高い埋め込み次元がより良い分類につながると仮定し、我々の仮説をテストするための堅牢性試験を設計した。
病状を呈示する患者の臨床医のノートをベクトルデータベースとテキスト埋め込みモデルを用いて分類することにより,これらのツールが医療用テキストデータの分類に有効であることを示す。
しかし,データベース内の単純なデータによるクエリは,性能に最適であることが判明した。
本研究では,テキスト埋め込みモデルとベクトルデータベースを小規模で適用可能であることを示し,これらのツールを大規模に適用するための基礎研究を行った。
関連論文リスト
- When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Generalist embedding models are better at short-context clinical
semantic search than specialized embedding models [0.9296448006507203]
ICD-10-CMのコード記述と容易に再現可能な言い換えに基づくデータセットを構築する。
セマンティックサーチタスクにおいて、ジェネラリストまたは臨床領域専門の既存の埋め込みモデルをベンチマークした。
その結果、ジェネラリストモデルは臨床モデルよりも優れており、既存の臨床特化モデルは、それらを混乱させる入力の小さな変化に対してより敏感であることが示唆された。
論文 参考訳(メタデータ) (2024-01-03T19:03:32Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - PharmKE: Knowledge Extraction Platform for Pharmaceutical Texts using
Transfer Learning [0.0]
PharmKEは、医薬品のセマンティック分析を徹底するために、いくつかの段階を通じてディープラーニングを適用するテキスト分析プラットフォームです。
この方法論は、正確なラベル付きトレーニングとテストデータセットの作成に使用され、カスタムエンティティラベリングタスクのモデルトレーニングに使用されます。
得られた結果は、同じデータセットで訓練された微調整BERTおよびBioBERTモデルと比較されます。
論文 参考訳(メタデータ) (2021-02-25T19:36:35Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。