Fugu-MT 論文翻訳(概要): Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering

論文の概要: Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering

arxiv url: http://arxiv.org/abs/2403.04890v1
Date: Thu, 7 Mar 2024 20:48:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 21:47:54.968322
Title: Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering
Title（参考訳）: オープンエンド医療質問応答のためのLCMを誘導するチェーン・オブ・シークレット推論
Authors: Ojas Gramopadhye, Saeel Sandeep Nachane, Prateek Chanda, Ganesh Ramakrishnan, Kshitij Sharad Jadhav, Yatin Nandwani, Dinesh Raghu, Sachindra Joshi
Abstract要約: 我々は,実生活における臨床シナリオを模倣するために,主観的なMedQA-USMLEデータセットの修正版を提案する。我々は、主観的なMedQAデータセットに対して、arXiv:2207.08143から5-shot-codex-CoT-promptを修正し、インクリメンタル推論のプロンプトを開発することで、より良いコントラスト学習戦略を開発する。
参考スコア（独自算出の注目度）: 25.163347677278182
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language models (LLMs) have demonstrated significant potential in transforming healthcare by automating tasks such as clinical documentation, information retrieval, and decision support. In this aspect, carefully engineered prompts have emerged as a powerful tool for using LLMs for medical scenarios, e.g., patient clinical scenarios. In this paper, we propose a modified version of the MedQA-USMLE dataset, which is subjective, to mimic real-life clinical scenarios. We explore the Chain of Thought (CoT) reasoning based on subjective response generation for the modified MedQA-USMLE dataset with appropriate LM-driven forward reasoning for correct responses to the medical questions. Keeping in mind the importance of response verification in the medical setting, we utilize a reward training mechanism whereby the language model also provides an appropriate verified response for a particular response to a clinical question. In this regard, we also include human-in-the-loop for different evaluation aspects. We develop better in-contrast learning strategies by modifying the 5-shot-codex-CoT-prompt from arXiv:2207.08143 for the subjective MedQA dataset and developing our incremental-reasoning prompt. Our evaluations show that the incremental reasoning prompt performs better than the modified codex prompt in certain scenarios. We also show that greedy decoding with the incremental reasoning method performs better than other strategies, such as prompt chaining and eliminative reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、臨床ドキュメント、情報検索、意思決定支援などのタスクを自動化することで、医療を変革する大きな可能性を実証している。この点において、慎重に設計されたプロンプトは、医療シナリオ、例えば患者の臨床シナリオにLLMを使用するための強力なツールとして現れている。本稿では,実際の臨床シナリオを模倣するために主観的なmedqa-usmleデータセットの修正版を提案する。医学的問題に対する適切なLM駆動前方推論を用いた修正MedQA-USMLEデータセットの主観応答生成に基づく思考の連鎖推論(CoT)について検討する。医療現場における応答検証の重要性を念頭に置いて,言語モデルが臨床質問に対する特定の応答に対して適切な応答を提供するための報酬訓練機構を利用する。この点に関しては,評価面の異なるHuman-in-the-loopも含んでいる。主観的medqaデータセットに対するarxiv:2207.08143の5-shot-codex-cot-promptを修正し,インクリメンタルな分析プロンプトを開発することにより,コントラスト内学習戦略を改善する。評価の結果,特定のシナリオにおいて,インクリメンタル推論のプロンプトはコーデックスのプロンプトよりも優れていた。また,インクリメンタル推論手法によるグリージーデコーディングは,プロンプト連鎖や固有推論など,他の手法よりも優れていることを示す。

関連論文リスト

Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs [23.50838763761289]
我々は、厳密で効果的な医療連鎖データを生成するために、Mentor-Intern Collaborative Search (MICS)を提案する。推論性能は、生成された推論パスの品質を評価するMICSスコアによって決定される。最終的に、難易度の高いマルチタスク医療推論データセットであるMMRPと、カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文参考訳（メタデータ） (2025-06-20T12:51:19Z)
Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning [38.49879425944787]
本稿では,仮説駆動型不確実性認識言語エージェントLA-CDMを用いて,臨床診断のための意思決定をモデル化することを提案する。 LA-CDMは, 正確な仮説生成, 仮説の不確実性推定, 効率的な意思決定という, 臨床的意思決定の重要な側面を目標とした3つの目標を掲げて, LA-CDMを訓練する。 4つの腹部疾患を対象とする実世界のデータセットMIMIC-CDMについて検討した。
論文参考訳（メタデータ） (2025-06-16T13:32:01Z)
MAGI: Multi-Agent Guided Interview for Psychiatric Assessment [50.6150986786028]
我々は,ゴールドスタンダードのMini International Neuropsychiatric Interview(MINI)を自動計算ナビゲーションに変換する最初のフレームワークであるMAGIを紹介する。臨床検査法, 会話適応性, 説明可能な推論を併用することにより, MAGI は LLM 支援型メンタルヘルスアセスメントを推し進めることを示す。
論文参考訳（メタデータ） (2025-04-25T11:08:27Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images [4.353855760968461]
画像テキストアライメントを強化し、より効果的な医療知識適応機構を確立するために設計されたクロスモーダル臨床知識ディストラクタ(ClinKD)。 ClinKDは、微細なマルチタスクQAペアを含む挑戦的な医療ベンチマークであるMed-GRIT-270kデータセット上で、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-09T15:08:10Z)
MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。生体画像検査における解釈可能性と精度を高めるように設計されている。 4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文参考訳（メタデータ） (2024-12-18T11:14:02Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
IryoNLP at MEDIQA-CORR 2024: Tackling the Medical Error Detection & Correction Task On the Shoulders of Medical Agents [0.0]
MedReAct'N'MedReFlexは,4種類の医療エージェントを用いて臨床ノートの誤りを検出し,修正する。提案手法のコアコンポーネントの1つは,臨床コーパスに基づくRAGパイプラインである。 MedReAct'N'MedReFlex フレームワークで活用した ClinicalCorp によるRAG アプローチの中枢的な役割を実証した。
論文参考訳（メタデータ） (2024-04-23T20:00:37Z)
ArgMed-Agents: Explainable Clinical Decision Reasoning with LLM Disscusion via Argumentation Schemes [7.950883198425716]
ArgMed-Agentsは、大きな言語モデル(LLM)が相互作用を通じて説明可能な臨床判断を下せるためのフレームワークである。我々は、ArgMed-Agentsの形式モデルを構築し、理論的保証の予想を示す。設定実験により、ArgMed-Agentsは、他のプロンプト手法と比較して、複雑な臨床的意思決定推論問題の精度を向上するだけでなく、より重要なのは、ユーザーの信頼を高めるための意思決定説明を提供する。
論文参考訳（メタデータ） (2024-03-10T19:47:00Z)
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。 JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文参考訳（メタデータ） (2024-02-28T05:44:41Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales [15.362903610463285]
本稿では,素早い学習を通して診断過程を合理化する「推論認識」診断フレームワークを提案する。そこで本研究では,実世界の臨床環境に対する機械生成的合理化の可能性を評価するための新しい基準セットを提案する。
論文参考訳（メタデータ） (2023-12-12T16:14:45Z)
CLIP in Medical Imaging: A Comprehensive Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。 CLIPの使用は、最近医療画像領域への関心が高まっている。
論文参考訳（メタデータ） (2023-12-12T15:21:57Z)
Diagnostic Reasoning Prompts Reveal the Potential for Large Language Model Interpretability in Medicine [4.773117448586697]
そこで我々は,大言語モデル(LLM)が臨床推論を実行し,正確な診断を行うことができるかどうかを,新たな診断推論プロンプトを開発した。 GPT4は診断精度を犠牲にすることなく臨床医の一般的な臨床推論過程を模倣することができる。
論文参考訳（メタデータ） (2023-08-13T19:04:07Z)
VBridge: Connecting the Dots Between Features, Explanations, and Data for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文参考訳（メタデータ） (2021-08-04T17:34:13Z)
Inheritance-guided Hierarchical Assignment for Clinical Automatic Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-01-27T13:16:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。