論文の概要: Edinburgh Clinical NLP at MEDIQA-CORR 2024: Guiding Large Language Models with Hints
- arxiv url: http://arxiv.org/abs/2405.18028v1
- Date: Tue, 28 May 2024 10:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:08:25.405025
- Title: Edinburgh Clinical NLP at MEDIQA-CORR 2024: Guiding Large Language Models with Hints
- Title(参考訳): MEDIQA-CORR 2024におけるエディンバラ臨床NLP : ヒントを用いた大規模言語モデルの指導
- Authors: Aryo Pradipta Gema, Chaeeun Lee, Pasquale Minervini, Luke Daines, T. Ian Simpson, Beatrice Alex,
- Abstract要約: 複数のプロンプト戦略を用いて医学的誤りを識別・修正する一般LSMの能力を評価する。
より小さな微調整モデルからエラースパン予測を2つの方法で組み込むことを提案する。
8ショット+CoT + ヒントによる最高のパフォーマンスのソリューションは、共有タスクのリーダーボードで6位です。
- 参考スコア(独自算出の注目度): 8.547853819087043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The MEDIQA-CORR 2024 shared task aims to assess the ability of Large Language Models (LLMs) to identify and correct medical errors in clinical notes. In this study, we evaluate the capability of general LLMs, specifically GPT-3.5 and GPT-4, to identify and correct medical errors with multiple prompting strategies. Recognising the limitation of LLMs in generating accurate corrections only via prompting strategies, we propose incorporating error-span predictions from a smaller, fine-tuned model in two ways: 1) by presenting it as a hint in the prompt and 2) by framing it as multiple-choice questions from which the LLM can choose the best correction. We found that our proposed prompting strategies significantly improve the LLM's ability to generate corrections. Our best-performing solution with 8-shot + CoT + hints ranked sixth in the shared task leaderboard. Additionally, our comprehensive analyses show the impact of the location of the error sentence, the prompted role, and the position of the multiple-choice option on the accuracy of the LLM. This prompts further questions about the readiness of LLM to be implemented in real-world clinical settings.
- Abstract(参考訳): MEDIQA-CORR 2024共有タスクは、臨床ノートにおける医療ミスの特定と修正のためのLarge Language Models(LLMs)の能力を評価することを目的としている。
本研究では,一般的なLCM(特にGPT-3.5とGPT-4)を用いて,複数のプロンプト戦略を用いて医療ミスを特定し,修正する能力について検討した。
LLMの精度の限界を認識して,より小型で微調整されたモデルからの誤差スパン予測を2つの方法で導入することを提案する。
1) 指示書のヒントとして提示し,
2) LLM が最適な修正を選択できる多重選択質問としてフレーミングする。
提案手法により,LLMの補正能力は大幅に向上した。
8ショット+CoT + ヒントによる最高のパフォーマンスのソリューションは、共有タスクのリーダーボードで6位です。
さらに, 誤り文の位置, 引き起こされた役割, 複数選択オプションの位置がLLMの精度に与える影響を包括的に分析した。
これにより、LLMが現実の臨床環境で実装される準備が整うかどうか、さらに疑問が持ち上がる。
関連論文リスト
- Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - WangLab at MEDIQA-CORR 2024: Optimized LLM-based Programs for Medical Error Detection and Correction [5.7931394318054155]
3つのサブタスクすべてでトップパフォーマンスを達成したアプローチを提示する。
微妙な誤りを含むMSデータセットに対して,検索に基づくシステムを開発した。
UWデータセットでは、より現実的な臨床ノートを反映して、エラーを検出し、ローカライズし、修正するためのモジュールのパイプラインを作成しました。
論文 参考訳(メタデータ) (2024-04-22T19:31:45Z) - Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文 参考訳(メタデータ) (2024-04-04T17:19:47Z) - Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain [21.96129653695565]
LLM(Large Language Models)は、医学的意思決定タスクにおいて医師を支援し、修正することができる。
我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
論文 参考訳(メタデータ) (2024-03-29T16:59:13Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - Combining Insights From Multiple Large Language Models Improves
Diagnostic Accuracy [0.0]
大きな言語モデル (LLM) は診断支援ツールとして提案されるか、あるいは "curbside consults" の代替として言及される。
個別の商業用LDMを問うことで得られた差分診断の精度を,同一LCMの組み合わせからの応答を集約して合成した差分診断の精度と比較した。
論文 参考訳(メタデータ) (2024-02-13T21:24:21Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering [45.84961106102445]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。
本稿では,医学的事実を外部知識ベースから抽出し,LLMのクエリプロンプトに注入するための総合的検索手法を提案する。
Vicuna-7Bは44.46%から48.54%の精度向上を示した。
論文 参考訳(メタデータ) (2023-09-27T21:26:03Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。