論文の概要: Mitigating Hallucinations in Healthcare LLMs with Granular Fact-Checking and Domain-Specific Adaptation
- arxiv url: http://arxiv.org/abs/2512.16189v1
- Date: Thu, 18 Dec 2025 05:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.925934
- Title: Mitigating Hallucinations in Healthcare LLMs with Granular Fact-Checking and Domain-Specific Adaptation
- Title(参考訳): グラニュラー・ファクト・チェッキングとドメイン特化適応による医療用LLMの幻覚の緩和
- Authors: Musarrat Zeba, Abdullah Al Mamun, Kishoar Jahan Tithee, Debopom Sutradhar, Mohaimenul Azam Khan Raiaan, Saddam Mukta, Reem E. Mohamed, Md Rafiqul Islam, Yakub Sebastian, Mukhtar Hussain, Sami Azam,
- Abstract要約: LLMとは独立して動作するファクトチェックモジュールを提案する。
我々のモデルはMIMIC IIIデータセット上でLoRa(Lo-Rank Adaptation)を用いて微調整される。
ファクトチェックモジュールは精度0.8904、リコール0.8234、F1スコア0.8556を達成する。
- 参考スコア(独自算出の注目度): 2.455449872438139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In healthcare, it is essential for any LLM-generated output to be reliable and accurate, particularly in cases involving decision-making and patient safety. However, the outputs are often unreliable in such critical areas due to the risk of hallucinated outputs from the LLMs. To address this issue, we propose a fact-checking module that operates independently of any LLM, along with a domain-specific summarization model designed to minimize hallucination rates. Our model is fine-tuned using Low-Rank Adaptation (LoRa) on the MIMIC III dataset and is paired with the fact-checking module, which uses numerical tests for correctness and logical checks at a granular level through discrete logic in natural language processing (NLP) to validate facts against electronic health records (EHRs). We trained the LLM model on the full MIMIC-III dataset. For evaluation of the fact-checking module, we sampled 104 summaries, extracted them into 3,786 propositions, and used these as facts. The fact-checking module achieves a precision of 0.8904, a recall of 0.8234, and an F1-score of 0.8556. Additionally, the LLM summary model achieves a ROUGE-1 score of 0.5797 and a BERTScore of 0.9120 for summary quality.
- Abstract(参考訳): 医療においては、特に意思決定や患者の安全に関わる場合、LCM出力の信頼性と正確さが不可欠である。
しかし、LLMからの幻覚出力のリスクのため、このような臨界領域では出力は信頼できないことが多い。
この問題に対処するために,幻覚率の最小化を目的としたドメイン固有要約モデルとともに,任意のLCMとは独立に動作するファクトチェックモジュールを提案する。
このモデルはMIMIC IIIデータセット上でLoRa(Lo-Rank Adaptation)を用いて微調整し,自然言語処理(NLP)における離散論理による数値的な精度・論理的チェックを用いて電子健康記録(EHR)に対する事実の検証を行うファクトチェックモジュールと組み合わせる。
完全なMIMIC-IIIデータセットを用いてLLMモデルを訓練した。
ファクトチェックモジュールの評価には104のサマリーをサンプリングし,これらを3,786の命題に抽出し,事実として利用した。
ファクトチェックモジュールは精度0.8904、リコール0.8234、F1スコア0.8556を達成する。
さらに、LCM要約モデルはROUGE-1スコアが0.5797、BERTScoreが0.9120である。
関連論文リスト
- Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs [16.173245551933178]
コンテキストグラウンドド・幻覚(Context-grounded hallucination)は、モデル出力がソーステキストに対して検証できない情報を含む場合である。
このような幻覚を局在化するためのLCMの適用性について検討する。
論文 参考訳(メタデータ) (2025-09-26T17:03:24Z) - Evaluating Large Language Models for Zero-Shot Disease Labeling in CT Radiology Reports Across Organ Systems [1.1373722549440357]
胸部,腹部,骨盤CTの多自由度ラベル付けのためのルールベースアルゴリズム(RBA),RadBERT,および3つの軽量オープンウェイトLCMを比較した。
コーエンのKappaとマイクロ/マクロ平均F1スコアを用いて評価した。
論文 参考訳(メタデータ) (2025-06-03T18:00:08Z) - Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。
我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。
我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文 参考訳(メタデータ) (2025-05-30T20:12:51Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。