論文の概要: LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine
- arxiv url: http://arxiv.org/abs/2404.03664v2
- Date: Tue, 9 Apr 2024 08:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 18:58:15.350998
- Title: LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine
- Title(参考訳): 鑑別検査心におけるLCM : 医療ルールエンジンを事例として
- Authors: Erblin Isaku, Christoph Laaber, Hassan Sartaj, Shaukat Ali, Thomas Schwitalla, Jan F. Nygård,
- Abstract要約: ノルウェーがん登録局(CRN)は、コアがん登録活動を支援するために、自動がん登録支援システム(CaReSS)を使用している。
GURIはCaReSSの中核的なコンポーネントであり、医療ルールによる入ってくるデータの検証に責任がある。
- 参考スコア(独自算出の注目度): 4.078166585959715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Cancer Registry of Norway (CRN) uses an automated cancer registration support system (CaReSS) to support core cancer registry activities, i.e, data capture, data curation, and producing data products and statistics for various stakeholders. GURI is a core component of CaReSS, which is responsible for validating incoming data with medical rules. Such medical rules are manually implemented by medical experts based on medical standards, regulations, and research. Since large language models (LLMs) have been trained on a large amount of public information, including these documents, they can be employed to generate tests for GURI. Thus, we propose an LLM-based test generation and differential testing approach (LLMeDiff) to test GURI. We experimented with four different LLMs, two medical rule engine implementations, and 58 real medical rules to investigate the hallucination, success, time efficiency, and robustness of the LLMs to generate tests, and these tests' ability to find potential issues in GURI. Our results showed that GPT-3.5 hallucinates the least, is the most successful, and is generally the most robust; however, it has the worst time efficiency. Our differential testing revealed 22 medical rules where implementation inconsistencies were discovered (e.g., regarding handling rule versions). Finally, we provide insights for practitioners and researchers based on the results.
- Abstract(参考訳): ノルウェーがん登録 (CRN) は、がんのコア登録活動、すなわちデータキャプチャー、データキュレーションをサポートし、様々な利害関係者のためのデータ製品や統計を作成するために、CaReSS (Automatic Cancer registration Support System) を使用している。
GURIはCaReSSの中核的なコンポーネントであり、医療ルールによる入ってくるデータの検証に責任がある。
このような医療規則は、医療基準、規制、研究に基づいて医療専門家が手動で実施する。
大規模な言語モデル(LLM)は、これらの文書を含む大量の公開情報に基づいて訓練されているため、GURIのテストを生成するために使用できる。
そこで我々は,LLMeDiff (LLM-based test generation and differential testing approach) を提案する。
我々は,4種類のLSM,2種類の医療ルールエンジン,58種類の医用ルールを実験し,LLMの幻覚,成功,時間効率,堅牢性について検討した。
以上の結果より, GPT-3.5の幻覚は最も成功し, 一般に最も堅牢であることがわかった。
当社の差分試験では,22の医療規則で実装の不整合が検出された(例:ルールのバージョンの扱い)。
最後に,結果に基づいて,実践者や研究者に洞察を提供する。
関連論文リスト
- Benchmarking Retrieval-Augmented Generation for Medicine [30.390132015614128]
大規模言語モデル(LLM)は、幅広い医療質問応答(QA)タスクにおいて最先端のパフォーマンスを達成した。
Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。
我々は、5つの医療QAデータセットから7,663の質問を含む第一種ベンチマークであるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。
論文 参考訳(メタデータ) (2024-02-20T17:44:06Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Surpassing GPT-4 Medical Coding with a Two-Stage Approach [1.7014913888753238]
GPT-4 LLMは、医療コーディングタスクのICD符号の過剰な数を予測する。
LLM-codexは,まずエビデンス提案を発生させ,LSTMに基づく検証段階を用いる2段階のICD符号予測手法である。
我々のモデルは、医学的コーディングの精度、稀な符号の精度、文章レベルの証拠の特定を同時に達成する唯一の方法である。
論文 参考訳(メタデータ) (2023-11-22T23:35:13Z) - Applying Large Language Models for Causal Structure Learning in Non
Small Cell Lung Cancer [8.248361703850774]
因果発見は、医療AI研究において重要な役割を担っている。
本稿では,大言語モデルを用いて,因果発見におけるエッジの方向性を決定する問題について検討する。
その結果,LLMは因果グラフのエッジの方向を正確に予測でき,既存の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-13T09:31:14Z) - A Survey of Large Language Models in Medicine: Progress, Application,
and Challenge [86.4234483148876]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Automated Test Generation for Medical Rules Web Services: A Case Study
at the Cancer Registry of Norway [6.1763166094495645]
ノルウェーがん登録 (CRN) は、ノルウェーのがん患者に関するデータを収集、キュレート、管理する。
CRNの医療ルールエンジンであるGURIは、CRNの重要なコンポーネントである。
我々は、EvoMasterのブラックボックスとホワイトボックスツールでGURIをテストし、コードカバレッジ、見つかったエラー、ドメイン固有のルールカバレッジに関するテストの有効性を調査します。
論文 参考訳(メタデータ) (2023-08-24T14:04:46Z) - How far is Language Model from 100% Few-shot Named Entity Recognition in Medical Domain [14.635536657783613]
本研究の目的は、医療領域における100%Few-shot NERのLMのパフォーマンスを比較して、医療領域における100%Few-shot NERのLMのパフォーマンスについて答えることである。
以上の結果から, LLMは, 適切な例や適切な論理的枠組みの存在から, 数発のNERタスクにおいてSLMよりも優れていたことが示唆された。
本研究では, 検索者, 関連事例, 思考者として機能し, ステップ・バイ・ステップの推論プロセスを採用する,textscRT (Retrieving and Thinking) という, シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T01:18:09Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。