論文の概要: MEDIQ: Question-Asking LLMs for Adaptive and Reliable Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2406.00922v2
- Date: Tue, 4 Jun 2024 13:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:47:03.190937
- Title: MEDIQ: Question-Asking LLMs for Adaptive and Reliable Clinical Reasoning
- Title(参考訳): MEDIQ: 適応的で信頼性の高い臨床推論のための質問応答LDM
- Authors: Shuyue Stella Li, Vidhisha Balachandran, Shangbin Feng, Jonathan Ilgen, Emma Pierson, Pang Wei Koh, Yulia Tsvetkov,
- Abstract要約: 臨床推論のような高度な領域では、大きな言語モデル(LLM)を利用したAIアシスタントはまだ信頼性と安全性が低い。
我々は,必要な情報を集め,確実に応答するためのフォローアップ質問を行う,より慎重なLCMを開発することを提案する。
我々は,現実的な臨床相互作用をシミュレートするフレームワークであるMEDIQを紹介する。
- 参考スコア(独自算出の注目度): 36.400896909161006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-stakes domains like clinical reasoning, AI assistants powered by large language models (LLMs) are yet to be reliable and safe. We identify a key obstacle towards reliability: existing LLMs are trained to answer any question, even with incomplete context in the prompt or insufficient parametric knowledge. We propose to change this paradigm to develop more careful LLMs that ask follow-up questions to gather necessary and sufficient information and respond reliably. We introduce MEDIQ, a framework to simulate realistic clinical interactions, which incorporates a Patient System and an adaptive Expert System. The Patient may provide incomplete information in the beginning; the Expert refrains from making diagnostic decisions when unconfident, and instead elicits missing details from the Patient via follow-up questions. To evaluate MEDIQ, we convert MEDQA and CRAFT-MD -- medical benchmarks for diagnostic question answering -- into an interactive setup. We develop a reliable Patient system and prototype several Expert systems, first showing that directly prompting state-of-the-art LLMs to ask questions degrades the quality of clinical reasoning, indicating that adapting LLMs to interactive information-seeking settings is nontrivial. We then augment the Expert with a novel abstention module to better estimate model confidence and decide whether to ask more questions, thereby improving diagnostic accuracy by 20.3%; however, performance still lags compared to an (unrealistic in practice) upper bound when full information is given upfront. Further analyses reveal that interactive performance can be improved by filtering irrelevant contexts and reformatting conversations. Overall, our paper introduces a novel problem towards LLM reliability, a novel MEDIQ framework, and highlights important future directions to extend the information-seeking abilities of LLM assistants in critical domains.
- Abstract(参考訳): 臨床推論のような高度な領域では、大きな言語モデル(LLM)を利用したAIアシスタントはまだ信頼性と安全性が低い。
既存のLCMは、プロンプトやパラメトリック知識が不十分な状況であっても、どんな質問にも答えるように訓練されている。
我々は,このパラダイムを改良し,より慎重なLCMを開発することを提案する。
MEDIQは,患者システムと適応エキスパートシステムを組み合わせた,現実的な臨床行為をシミュレートするフレームワークである。
患者は、最初に不完全な情報を提供し、専門家は、未確認の時に診断決定をすることを拒否し、その代わりに、フォローアップ質問を通じて、患者から欠落した詳細を引き出す。
MEDIQを評価するために,診断質問応答のための医療ベンチマークであるMEDQAとCRAFT-MDをインタラクティブなセットアップに変換する。
我々は信頼性の高い患者システムといくつかのエキスパートシステムを開発し、まず、最先端のLCMに質問をするよう促すことが、臨床推論の質を低下させることを示す。
次に,モデル信頼度をよりよく評価し,より多くの質問を行うかどうかを判断するために,エキスパートを新たな禁断モジュールで強化し,その結果,診断精度を20.3%向上させる。
さらに分析した結果,無関係な文脈をフィルタリングし,会話を再構築することで,対話性の向上が期待できることがわかった。
本稿では,LLM の信頼性に対する新たな問題,新しい MEDIQ フレームワークを導入し,重要な領域における LLM アシスタントの情報検索能力の拡張に向けた重要な方向性を明らかにする。
関連論文リスト
- Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。
本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。
我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-16T14:28:33Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Boosting Healthcare LLMs Through Retrieved Context [0.6144680854063939]
本研究では,医療領域におけるコンテキスト検索手法の境界について検討する。
以上の結果から,LLMが確立した医療ベンチマークにおいて,最大規模のプライベートソリューションに匹敵するパフォーマンスを達成できることが判明した。
特に,より信頼性の高いオープンエンド回答の生成を改善するために,OpenMedPromptを提案する。
論文 参考訳(メタデータ) (2024-09-23T15:33:38Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。
患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文 参考訳(メタデータ) (2023-09-08T18:44:47Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。