論文の概要: Using text embedding models as text classifiers with medical data
- arxiv url: http://arxiv.org/abs/2402.16886v2
- Date: Mon, 02 Dec 2024 21:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:58.470044
- Title: Using text embedding models as text classifiers with medical data
- Title(参考訳): 医療データを用いたテキスト埋め込みモデルを用いたテキスト分類
- Authors: Rishabh Goel,
- Abstract要約: 医療用テキストデータを用いてテキストのエンコーディングと分類を行う手段として,ベクトルデータベースと埋め込みモデルの利用について検討する。
しかし,データベース内の単純なデータによるクエリは性能に最適であった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The advent of Large Language Models (LLMs) is promising and LLMs have been applied to numerous fields. However, it is not trivial to implement LLMs in the medical field, due to the high standards for precision and accuracy. Currently, the diagnosis of medical ailments must be done by hand, as it is costly to build a sufficiently broad LLM that can diagnose a wide range of diseases. Here, we explore the use of vector databases and embedding models as a means of encoding and classifying text with medical text data without the need to train a new model altogether. We used various LLMs to generate the medical data, then encoded the data with a text embedding model and stored it in a vector database. We hypothesized that higher embedding dimensions coupled with descriptive data in the vector database would lead to better classifications and designed a robustness test to test our hypothesis. By using vector databases and text embedding models to classify a clinician's notes on a patient presenting with a certain ailment, we showed that these tools can be successful at classifying medical text data. We found that a higher embedding dimension did indeed yield better results, however, querying with simple data in the database was optimal for performance. We have shown in this study the applicability of text embedding models and vector databases on a small scale, and our work lays the groundwork for applying these tools on a larger scale.
- Abstract(参考訳): LLM(Large Language Models)の出現は有望であり、LLMは多くの分野に適用されている。
しかし、精度と精度の基準が高いため、医療分野でのLSMの実装は容易ではない。
現在、医学的障害の診断は手作業で行う必要があり、広範囲の疾患を診断できる十分に広いLSMを構築するのに費用がかかる。
本稿では,新しいモデルを全く訓練することなく,医療用テキストデータによるテキストのエンコーディングと分類を行う手段として,ベクトルデータベースと埋め込みモデルの利用について検討する。
各種LSMを用いて医療データを生成し,テキスト埋め込みモデルを用いてデータを符号化し,ベクトルデータベースに格納した。
ベクトルデータベースに記述データと結合した高い埋め込み次元がより良い分類につながると仮定し、我々の仮説をテストするための堅牢性試験を設計した。
病状を呈示する患者の臨床医のノートをベクトルデータベースとテキスト埋め込みモデルを用いて分類することにより,これらのツールが医療用テキストデータの分類に有効であることを示す。
しかし,データベース内の単純なデータによるクエリは,性能に最適であることが判明した。
本研究では,テキスト埋め込みモデルとベクトルデータベースを小規模で適用可能であることを示し,これらのツールを大規模に適用するための基礎研究を行った。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Sample Size in Natural Language Processing within Healthcare Research [0.14865681381012494]
事前収集されたデータの十分なコーパスの欠如は、新しい研究のためにサンプルサイズを決定する際の制限要因となる可能性がある。
本稿では、医療領域におけるテキスト分類タスクのサンプルサイズを推奨することで、この問題に対処しようとする。
論文 参考訳(メタデータ) (2023-09-05T13:42:43Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Towards Understanding the Generalization of Medical Text-to-SQL Models
and Datasets [46.12592636378064]
医療分野におけるテキスト・ツー・ジェネレーションの解決にはまだまだ長い道のりがある。
精度は92%から28%に低下し,性能が大幅に低下した現状の言語モデルを評価した。
本稿では,関係言語モデルの一般化性を改善するために,新たなデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T20:26:30Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。