論文の概要: Evaluating Computational Accuracy of Large Language Models in Numerical Reasoning Tasks for Healthcare Applications
- arxiv url: http://arxiv.org/abs/2501.13936v1
- Date: Tue, 14 Jan 2025 04:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 08:51:12.586648
- Title: Evaluating Computational Accuracy of Large Language Models in Numerical Reasoning Tasks for Healthcare Applications
- Title(参考訳): 医療分野における数値推論課題における大規模言語モデルの計算精度の評価
- Authors: Arjun R. Malghan,
- Abstract要約: 医療分野で大きな言語モデル(LLM)が変革的なツールとして登場した。
数値推論の習熟度、特に臨床応用のような高い評価の領域では、未解明のままである。
本研究では,医療現場における数値推論作業におけるLCMの計算精度について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have emerged as transformative tools in the healthcare sector, demonstrating remarkable capabilities in natural language understanding and generation. However, their proficiency in numerical reasoning, particularly in high-stakes domains like in clinical applications, remains underexplored. Numerical reasoning is critical in healthcare applications, influencing patient outcomes, treatment planning, and resource allocation. This study investigates the computational accuracy of LLMs in numerical reasoning tasks within healthcare contexts. Using a curated dataset of 1,000 numerical problems, encompassing real-world scenarios such as dosage calculations and lab result interpretations, the performance of a refined LLM based on the GPT-3 architecture was evaluated. The methodology includes prompt engineering, integration of fact-checking pipelines, and application of regularization techniques to enhance model accuracy and generalization. Key metrics such as precision, recall, and F1-score were utilized to assess the model's efficacy. The results indicate an overall accuracy of 84.10%, with improved performance in straightforward numerical tasks and challenges in multi-step reasoning. The integration of a fact-checking pipeline improved accuracy by 11%, underscoring the importance of validation mechanisms. This research highlights the potential of LLMs in healthcare numerical reasoning and identifies avenues for further refinement to support critical decision-making in clinical environments. The findings aim to contribute to the development of reliable, interpretable, and contextually relevant AI tools for healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療分野において変革的なツールとして登場し、自然言語の理解と生成において顕著な能力を示している。
しかし、数値推論の能力、特に臨床応用のような高精細な領域では、未解明のままである。
数値推論は医療応用において重要であり、患者の結果、治療計画、資源配分に影響を与える。
本研究では,医療現場における数値推論作業におけるLCMの計算精度について検討した。
計算量計算や実験結果解釈などの実世界のシナリオを含む1000の数値問題をキュレートしたデータセットを用いて, GPT-3 アーキテクチャに基づく改良 LLM の性能評価を行った。
この手法には、迅速なエンジニアリング、ファクトチェックパイプラインの統合、モデルの精度と一般化を高めるための正規化技術の適用が含まれる。
精度、リコール、F1スコアといった重要な指標を用いて、モデルの有効性を評価した。
その結果, 計算精度は84.10%に向上し, 単純な数値処理では性能が向上し, 多段階推論では課題が生じた。
ファクトチェックパイプラインの統合により精度が11%向上し、検証メカニズムの重要性が強調された。
本研究は、医療数値推論におけるLSMの可能性を強調し、臨床環境における重要な意思決定を支援するためのさらなる改善の道筋を特定する。
この発見は、医療のための信頼できる、解釈可能な、コンテキストに関連のあるAIツールの開発に貢献することを目的としている。
関連論文リスト
- Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Leveraging Large Language Models through Natural Language Processing to provide interpretable Machine Learning predictions of mental deterioration in real time [5.635300481123079]
公式推計によると、世界中で5000万人が認知症に罹患しており、毎年1000万人の新しい患者が増えている。
この目的のために、人工知能と計算言語学は自然言語分析、パーソナライズされたアセスメント、モニタリング、治療に活用することができる。
この仕事には、手頃で柔軟な、非侵襲的でパーソナライズされた診断システムを提供しています。
論文 参考訳(メタデータ) (2024-09-05T09:27:05Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文 参考訳(メタデータ) (2024-04-24T09:55:24Z) - Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。
本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文 参考訳(メタデータ) (2024-01-05T15:09:57Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - FineEHR: Refine Clinical Note Representations to Improve Mortality
Prediction [3.9026461169566673]
大規模な電子健康記録は、臨床テキストとバイタルサインデータの豊富な機械学習モデルを提供する。
臨床ノート分析のための高度な自然言語処理(NLP)アルゴリズムの出現にもかかわらず、生臨床データに存在する複雑なテキスト構造とノイズは重大な課題となっている。
本稿では,2つの表現学習技術,すなわちメートル法学習と微調整技術を用いて,臨床ノートの埋め込みを洗練させるシステムFINEEHRを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:42:52Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。