論文の概要: Few shot chain-of-thought driven reasoning to prompt LLMs for open ended
medical question answering
- arxiv url: http://arxiv.org/abs/2403.04890v1
- Date: Thu, 7 Mar 2024 20:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:47:54.968322
- Title: Few shot chain-of-thought driven reasoning to prompt LLMs for open ended
medical question answering
- Title(参考訳): オープンエンド医療質問応答のためのLCMを誘導するチェーン・オブ・シークレット推論
- Authors: Ojas Gramopadhye, Saeel Sandeep Nachane, Prateek Chanda, Ganesh
Ramakrishnan, Kshitij Sharad Jadhav, Yatin Nandwani, Dinesh Raghu, Sachindra
Joshi
- Abstract要約: 我々は,実生活における臨床シナリオを模倣するために,主観的なMedQA-USMLEデータセットの修正版を提案する。
我々は、主観的なMedQAデータセットに対して、arXiv:2207.08143から5-shot-codex-CoT-promptを修正し、インクリメンタル推論のプロンプトを開発することで、より良いコントラスト学習戦略を開発する。
- 参考スコア(独自算出の注目度): 25.163347677278182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language models (LLMs) have demonstrated significant potential in
transforming healthcare by automating tasks such as clinical documentation,
information retrieval, and decision support. In this aspect, carefully
engineered prompts have emerged as a powerful tool for using LLMs for medical
scenarios, e.g., patient clinical scenarios. In this paper, we propose a
modified version of the MedQA-USMLE dataset, which is subjective, to mimic
real-life clinical scenarios. We explore the Chain of Thought (CoT) reasoning
based on subjective response generation for the modified MedQA-USMLE dataset
with appropriate LM-driven forward reasoning for correct responses to the
medical questions. Keeping in mind the importance of response verification in
the medical setting, we utilize a reward training mechanism whereby the
language model also provides an appropriate verified response for a particular
response to a clinical question. In this regard, we also include
human-in-the-loop for different evaluation aspects. We develop better
in-contrast learning strategies by modifying the 5-shot-codex-CoT-prompt from
arXiv:2207.08143 for the subjective MedQA dataset and developing our
incremental-reasoning prompt. Our evaluations show that the incremental
reasoning prompt performs better than the modified codex prompt in certain
scenarios. We also show that greedy decoding with the incremental reasoning
method performs better than other strategies, such as prompt chaining and
eliminative reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、臨床ドキュメント、情報検索、意思決定支援などのタスクを自動化することで、医療を変革する大きな可能性を実証している。
この点において、慎重に設計されたプロンプトは、医療シナリオ、例えば患者の臨床シナリオにLLMを使用するための強力なツールとして現れている。
本稿では,実際の臨床シナリオを模倣するために主観的なmedqa-usmleデータセットの修正版を提案する。
医学的問題に対する適切なLM駆動前方推論を用いた修正MedQA-USMLEデータセットの主観応答生成に基づく思考の連鎖推論(CoT)について検討する。
医療現場における応答検証の重要性を念頭に置いて,言語モデルが臨床質問に対する特定の応答に対して適切な応答を提供するための報酬訓練機構を利用する。
この点に関しては,評価面の異なるHuman-in-the-loopも含んでいる。
主観的medqaデータセットに対するarxiv:2207.08143の5-shot-codex-cot-promptを修正し,インクリメンタルな分析プロンプトを開発することにより,コントラスト内学習戦略を改善する。
評価の結果,特定のシナリオにおいて,インクリメンタル推論のプロンプトはコーデックスのプロンプトよりも優れていた。
また,インクリメンタル推論手法によるグリージーデコーディングは,プロンプト連鎖や固有推論など,他の手法よりも優れていることを示す。
関連論文リスト
- Improving Clinical Question Answering with Multi-Task Learning: A Joint Approach for Answer Extraction and Medical Categorization [2.380499804323775]
回答抽出と医療分類の両面でCQAモデルを共同で訓練するマルチタスク学習フレームワークを提案する。
回答の範囲の予測に加えて、我々のモデルは、診断、治療、症状、処置、実験報告の5つの標準化された医療カテゴリに分類する。
その結果、MTLは標準微調整に比べてF1スコアを2.2%改善し、解答分類の精度は90.7%向上した。
論文 参考訳(メタデータ) (2025-02-18T18:20:37Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - IryoNLP at MEDIQA-CORR 2024: Tackling the Medical Error Detection & Correction Task On the Shoulders of Medical Agents [0.0]
MedReAct'N'MedReFlexは,4種類の医療エージェントを用いて臨床ノートの誤りを検出し,修正する。
提案手法のコアコンポーネントの1つは,臨床コーパスに基づくRAGパイプラインである。
MedReAct'N'MedReFlex フレームワークで活用した ClinicalCorp によるRAG アプローチの中枢的な役割を実証した。
論文 参考訳(メタデータ) (2024-04-23T20:00:37Z) - Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文 参考訳(メタデータ) (2024-02-28T05:44:41Z) - Diagnostic Reasoning Prompts Reveal the Potential for Large Language
Model Interpretability in Medicine [4.773117448586697]
そこで我々は,大言語モデル(LLM)が臨床推論を実行し,正確な診断を行うことができるかどうかを,新たな診断推論プロンプトを開発した。
GPT4は診断精度を犠牲にすることなく臨床医の一般的な臨床推論過程を模倣することができる。
論文 参考訳(メタデータ) (2023-08-13T19:04:07Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。