Fugu-MT 論文翻訳(概要): LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine

論文の概要: LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine

arxiv url: http://arxiv.org/abs/2404.03664v2
Date: Tue, 9 Apr 2024 08:08:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 18:58:15.350998
Title: LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine
Title（参考訳）: 鑑別検査心におけるLCM : 医療ルールエンジンを事例として
Authors: Erblin Isaku, Christoph Laaber, Hassan Sartaj, Shaukat Ali, Thomas Schwitalla, Jan F. Nygård,
Abstract要約: ノルウェーがん登録局(CRN)は、コアがん登録活動を支援するために、自動がん登録支援システム(CaReSS)を使用している。 GURIはCaReSSの中核的なコンポーネントであり、医療ルールによる入ってくるデータの検証に責任がある。
参考スコア（独自算出の注目度）: 4.078166585959715
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Cancer Registry of Norway (CRN) uses an automated cancer registration support system (CaReSS) to support core cancer registry activities, i.e, data capture, data curation, and producing data products and statistics for various stakeholders. GURI is a core component of CaReSS, which is responsible for validating incoming data with medical rules. Such medical rules are manually implemented by medical experts based on medical standards, regulations, and research. Since large language models (LLMs) have been trained on a large amount of public information, including these documents, they can be employed to generate tests for GURI. Thus, we propose an LLM-based test generation and differential testing approach (LLMeDiff) to test GURI. We experimented with four different LLMs, two medical rule engine implementations, and 58 real medical rules to investigate the hallucination, success, time efficiency, and robustness of the LLMs to generate tests, and these tests' ability to find potential issues in GURI. Our results showed that GPT-3.5 hallucinates the least, is the most successful, and is generally the most robust; however, it has the worst time efficiency. Our differential testing revealed 22 medical rules where implementation inconsistencies were discovered (e.g., regarding handling rule versions). Finally, we provide insights for practitioners and researchers based on the results.
Abstract（参考訳）: ノルウェーがん登録 (CRN) は、がんのコア登録活動、すなわちデータキャプチャー、データキュレーションをサポートし、様々な利害関係者のためのデータ製品や統計を作成するために、CaReSS (Automatic Cancer registration Support System) を使用している。 GURIはCaReSSの中核的なコンポーネントであり、医療ルールによる入ってくるデータの検証に責任がある。このような医療規則は、医療基準、規制、研究に基づいて医療専門家が手動で実施する。大規模な言語モデル(LLM)は、これらの文書を含む大量の公開情報に基づいて訓練されているため、GURIのテストを生成するために使用できる。そこで我々は,LLMeDiff (LLM-based test generation and differential testing approach) を提案する。我々は,4種類のLSM,2種類の医療ルールエンジン,58種類の医用ルールを実験し,LLMの幻覚,成功,時間効率,堅牢性について検討した。以上の結果より, GPT-3.5の幻覚は最も成功し, 一般に最も堅牢であることがわかった。当社の差分試験では,22の医療規則で実装の不整合が検出された(例:ルールのバージョンの扱い)。最後に,結果に基づいて,実践者や研究者に洞察を提供する。

関連論文リスト

Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes [22.401540975926324]
MEDECは医学的誤りの検出と修正のための最初の公開ベンチマークである。 MEDECは3,848の臨床的テキストで構成されており、3つの病院システムから488の臨床ノートが含まれている。医学的知識と推論能力の両方を必要とする医療ミスの検出・修正タスクについて,最近のLCMを評価した。
論文参考訳（メタデータ） (2024-12-26T15:54:10Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文参考訳（メタデータ） (2024-10-27T23:48:47Z)
Enabling Scalable Evaluation of Bias Patterns in Medical LLMs [2.089191490381739]
大規模言語モデル(LLMs)は、多くの医学的課題に大きく貢献する可能性を示している。主な関心領域の1つは、医学的応用におけるLSMの偏りのある行動に関連しており、個人の不公平な治療につながっている。本稿では,厳密な医学的証拠に基づく検査ケースの自動生成により,そのようなバイアス評価をスケールアップする手法を提案する。
論文参考訳（メタデータ） (2024-10-18T14:17:03Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions [42.73799041840482]
i-MedRAGは、過去の情報検索の試みに基づいてフォローアップクエリを反復的に要求するシステムである。ゼロショットのi-MedRAGは、GPT-3.5上で既存のプロンプトエンジニアリングと微調整の方法をすべて上回ります。 i-MedRAGは、順応的にフォローアップクエリを問い合わせて推論チェーンを形成し、医学的な質問の詳細な分析を提供する。
論文参考訳（メタデータ） (2024-08-01T17:18:17Z)
Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文参考訳（メタデータ） (2023-11-09T02:55:58Z)
Automated Test Generation for Medical Rules Web Services: A Case Study at the Cancer Registry of Norway [6.1763166094495645]
ノルウェーがん登録 (CRN) は、ノルウェーのがん患者に関するデータを収集、キュレート、管理する。 CRNの医療ルールエンジンであるGURIは、CRNの重要なコンポーネントである。我々は、EvoMasterのブラックボックスとホワイトボックスツールでGURIをテストし、コードカバレッジ、見つかったエラー、ドメイン固有のルールカバレッジに関するテストの有効性を調査します。
論文参考訳（メタデータ） (2023-08-24T14:04:46Z)
How far is Language Model from 100% Few-shot Named Entity Recognition in Medical Domain [14.635536657783613]
本研究の目的は、医療領域における100%Few-shot NERのLMのパフォーマンスを比較して、医療領域における100%Few-shot NERのLMのパフォーマンスについて答えることである。以上の結果から, LLMは, 適切な例や適切な論理的枠組みの存在から, 数発のNERタスクにおいてSLMよりも優れていたことが示唆された。本研究では, 検索者, 関連事例, 思考者として機能し, ステップ・バイ・ステップの推論プロセスを採用する,textscRT (Retrieving and Thinking) という, シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2023-07-01T01:18:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。