Fugu-MT 論文翻訳(概要): MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning

論文の概要: MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning

arxiv url: http://arxiv.org/abs/2406.00922v3
Date: Thu, 07 Nov 2024 18:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.164888
Title: MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning
Title（参考訳）: MediQ:質問応答型LSMと信頼性のあるインタラクティブな臨床推論のためのベンチマーク
Authors: Shuyue Stella Li, Vidhisha Balachandran, Shangbin Feng, Jonathan S. Ilgen, Emma Pierson, Pang Wei Koh, Yulia Tsvetkov,
Abstract要約: 我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。 LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
参考スコア（独自算出の注目度）: 36.400896909161006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Users typically engage with LLMs interactively, yet most existing benchmarks evaluate them in a static, single-turn format, posing reliability concerns in interactive scenarios. We identify a key obstacle towards reliability: LLMs are trained to answer any question, even with incomplete context or insufficient knowledge. In this paper, we propose to change the static paradigm to an interactive one, develop systems that proactively ask questions to gather more information and respond reliably, and introduce an benchmark - MediQ - to evaluate question-asking ability in LLMs. MediQ simulates clinical interactions consisting of a Patient System and an adaptive Expert System; with potentially incomplete initial information, the Expert refrains from making diagnostic decisions when unconfident, and instead elicits missing details via follow-up questions. We provide a pipeline to convert single-turn medical benchmarks into an interactive format. Our results show that directly prompting state-of-the-art LLMs to ask questions degrades performance, indicating that adapting LLMs to proactive information-seeking settings is nontrivial. We experiment with abstention strategies to better estimate model confidence and decide when to ask questions, improving diagnostic accuracy by 22.3%; however, performance still lags compared to an (unrealistic in practice) upper bound with complete information upfront. Further analyses show improved interactive performance with filtering irrelevant contexts and reformatting conversations. Overall, we introduce a novel problem towards LLM reliability, an interactive MediQ benchmark and a novel question-asking system, and highlight directions to extend LLMs' information-seeking abilities in critical domains.
Abstract（参考訳）: ユーザは通常、LLMを対話的に扱うが、既存のベンチマークのほとんどは、静的なシングルターン形式で評価し、対話的なシナリオにおける信頼性の懸念を呈する。 LLMは、不完全なコンテキストや不十分な知識であっても、どんな質問にも答えるように訓練されています。本稿では,静的なパラダイムをインタラクティブなパラダイムに変更し,積極的に質問を行い,より多くの情報を集め,確実に応答するシステムを開発することを提案する。 MediQは、患者システムと適応専門家システムからなる臨床相互作用をシミュレートする;潜在的に不完全な初期情報により、専門家は、未確認の時に診断決定を行うことを控え、代わりにフォローアップの質問を通じて詳細を欠くようにする。シングルターン医療ベンチマークをインタラクティブなフォーマットに変換するパイプラインを提供する。以上の結果から,現状のLCMに質問をするよう促すことは性能を低下させ,積極的に情報検索を行う環境にLLMを適応させることは容易ではないことが示された。モデルの信頼性をよりよく評価し、いつ質問するかを判断し、診断精度を22.3%向上させるため、留意戦略を実験する。さらに分析した結果,無関係な文脈をフィルタリングし,会話を再構築することで,対話性が向上した。全体として,LLMの信頼性に対する新たな問題,対話型メディQベンチマーク,新しい質問応答システムを導入し,クリティカルドメインにおけるLLMの情報探索能力を拡張するための方向性を強調した。

関連論文リスト

Accommodate Knowledge Conflicts in Retrieval-augmented LLMs: Towards Reliable Response Generation in the Wild [11.058848731627233]
大規模言語モデル (LLM) には高度な情報検索システムがある。 LLMは、しばしば内部記憶と検索された外部情報の間の知識の衝突に直面している。スウィンVIBは,変分情報ボトルネックモデルのパイプラインを,検索した情報の適応的拡張に統合する新しいフレームワークである。
論文参考訳（メタデータ） (2025-04-17T14:40:31Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning [39.750234944933666]
大規模言語モデル(LLM)は、不確実性の下で有効な質問をすることがしばしば失敗する。提案するALFAは,「良い」質問の概念を理論的な属性の集合に分解することで,LCMの質問応答を改善するフレームワークである。
論文参考訳（メタデータ） (2025-02-20T18:59:31Z)
LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文参考訳（メタデータ） (2024-12-10T15:00:32Z)
Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文参考訳（メタデータ） (2024-11-16T14:28:33Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
大規模言語モデル(LLM)は、会話型AIシステムにおいて、ユーザの問い合わせに対する応答を生成するために広く使われている。本研究では,文書コーパスから多様なスコープ外質問を効率的に生成する誘導幻覚に基づく手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
Boosting Healthcare LLMs Through Retrieved Context [0.6144680854063939]
本研究では,医療領域におけるコンテキスト検索手法の境界について検討する。以上の結果から,LLMが確立した医療ベンチマークにおいて,最大規模のプライベートソリューションに匹敵するパフォーマンスを達成できることが判明した。特に,より信頼性の高いオープンエンド回答の生成を改善するために,OpenMedPromptを提案する。
論文参考訳（メタデータ） (2024-09-23T15:33:38Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文参考訳（メタデータ） (2023-09-08T18:44:47Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。