論文の概要: Are LLMs reliable? An exploration of the reliability of large language models in clinical note generation
- arxiv url: http://arxiv.org/abs/2505.17095v1
- Date: Wed, 21 May 2025 03:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.556114
- Title: Are LLMs reliable? An exploration of the reliability of large language models in clinical note generation
- Title(参考訳): LLMは信頼できるか? : 臨床ノート作成における大規模言語モデルの信頼性の検討
- Authors: Kristine Ann M. Carandang, Jasper Meynard P. Araña, Ethan Robert A. Casin, Christopher P. Monterola, Daniel Stanley Y. Tan, Jesus Felix B. Valenzuela, Christian M. Alis,
- Abstract要約: 本研究は,CNG における Anthropic, Meta, Mistral, OpenAI のオープンウェイトおよびプロプライエタリ LLM の信頼性を評価する。
全体的にMetaのLlama 70Bが最も信頼性が高く、続いてMistralのSmallモデルが続いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the legal and ethical responsibilities of healthcare providers (HCPs) for accurate documentation and protection of patient data privacy, the natural variability in the responses of large language models (LLMs) presents challenges for incorporating clinical note generation (CNG) systems, driven by LLMs, into real-world clinical processes. The complexity is further amplified by the detailed nature of texts in CNG. To enhance the confidence of HCPs in tools powered by LLMs, this study evaluates the reliability of 12 open-weight and proprietary LLMs from Anthropic, Meta, Mistral, and OpenAI in CNG in terms of their ability to generate notes that are string equivalent (consistency rate), have the same meaning (semantic consistency) and are correct (semantic similarity), across several iterations using the same prompt. The results show that (1) LLMs from all model families are stable, such that their responses are semantically consistent despite being written in various ways, and (2) most of the LLMs generated notes close to the corresponding notes made by experts. Overall, Meta's Llama 70B was the most reliable, followed by Mistral's Small model. With these findings, we recommend the local deployment of these relatively smaller open-weight models for CNG to ensure compliance with data privacy regulations, as well as to improve the efficiency of HCPs in clinical documentation.
- Abstract(参考訳): 患者データプライバシの正確なドキュメンテーションと保護のための医療提供者(HCP)の法的および倫理的責任のため、大きな言語モデル(LLM)の応答の自然変動は、LLMによって駆動される臨床ノート生成(CNG)システムを実際の臨床プロセスに組み込む上での課題である。
この複雑さは、CNGのテキストの詳細な性質によってさらに増幅される。
LLMを用いたツールにおけるHCPの信頼性を高めるため、同じプロンプトを用いて、文字列等価(一貫性)、同じ意味(セマンティック一貫性)を持ち、正しい(セマンティック類似性)の音符を生成する能力の観点から、CNGにおけるAnthropic、Meta、Mistral、OpenAIの12個のオープンウェイトおよびプロプライエタリLCMの信頼性を評価した。
その結果,(1) モデルファミリーのLLMは, 様々な書き方にもかかわらず, セマンティックに一貫した応答を保ち, 2) 専門家が作成したメモに近い音符が生成されることが判明した。
全体的にMetaのLlama 70Bが最も信頼性が高く、続いてMistralのSmallモデルが続いた。
これらの結果から,これらの比較的小さなオープンウェイトモデルをCNGにローカルに展開して,データプライバシ規制の遵守を確保するとともに,臨床資料におけるHCPの効率を向上させることを推奨する。
関連論文リスト
- Development and Validation of the Provider Documentation Summarization Quality Instrument for Large Language Models [3.0569643495382173]
The Provider Summarization Quality Instrument (PDSQI-9) was developed to evaluate LLM- generated clinical summaries。
検証には、実体的妥当性のためのピアソン相関、因子分析、構造的妥当性のためのクロンバッハのαが含まれていた。
PDSQI-9は強い内部整合性と信頼性を示した。
論文 参考訳(メタデータ) (2025-01-15T17:47:57Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - LLMs-in-the-Loop Part 2: Expert Small AI Models for Anonymization and De-identification of PHI Across Multiple Languages [0.0]
本稿では、LLM-in-the-loop法を用いて開発された専門的な小型AIモデルを紹介し、ドメイン固有非識別NERモデルの需要を満たす。
NERモデルは8言語で開発され、それぞれ0.966, 0.975, 0.976, 0.970, 0.964, 0.974, 0.978, 0.953のf1-microスコア平均を達成した。
論文 参考訳(メタデータ) (2024-12-14T18:10:29Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging [0.33554367023486936]
がんのステージング状態は臨床報告で確認できるが、抽出するには自然言語処理が必要である。
臨床指向の大規模言語モデルの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。
本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T19:34:35Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Rethinking STS and NLI in Large Language Models [38.74393637449224]
我々は、意味的なテキストの類似性と自然言語の推論を再考しようと試みている。
臨床・バイオメディカル領域におけるSTSおよびNLIの性能について検討した。
次に, LLMの予測的信頼度と, 集団的人間の意見の収集能力を評価する。
論文 参考訳(メタデータ) (2023-09-16T11:58:39Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。