論文の概要: Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning
- arxiv url: http://arxiv.org/abs/2603.11394v1
- Date: Thu, 12 Mar 2026 00:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.724583
- Title: Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning
- Title(参考訳): 音を聴くのをやめろ! マルチターン会話はどのようにして診断推論を低下させるか
- Authors: Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin,
- Abstract要約: 3つの臨床データセットから17の大規模言語モデル(LLM)を評価する。
モデル信念を測定するための"スティック・オア・スウィッチ"評価フレームワークを開発した。
実験の結果,マルチターンインタラクションが常に性能を低下させる会話税が明らかにされた。
- 参考スコア(独自算出の注目度): 12.166175637413637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patients and clinicians are increasingly using chatbots powered by large language models (LLMs) for healthcare inquiries. While state-of-the-art LLMs exhibit high performance on static diagnostic reasoning benchmarks, their efficacy across multi-turn conversations, which better reflect real-world usage, has been understudied. In this paper, we evaluate 17 LLMs across three clinical datasets to investigate how partitioning the decision-space into multiple simpler turns of conversation influences their diagnostic reasoning. Specifically, we develop a "stick-or-switch" evaluation framework to measure model conviction (i.e., defending a correct diagnosis or safe abstention against incorrect suggestions) and flexibility (i.e., recognizing a correct suggestion when it is introduced) across conversations. Our experiments reveal the conversation tax, where multi-turn interactions consistently degrade performance when compared to single-shot baselines. Notably, models frequently abandon initial correct diagnoses and safe abstentions to align with incorrect user suggestions. Additionally, several models exhibit blind switching, failing to distinguish between signal and incorrect suggestions.
- Abstract(参考訳): 患者や臨床医は、医療調査に大規模言語モデル(LLM)を使用したチャットボットの利用が増えている。
最先端のLCMは静的診断推論ベンチマークで高い性能を示すが、実世界での使用をよりよく反映したマルチターン会話における有効性は検討されている。
本稿では,3つの臨床データセットにまたがる17個のLSMを評価し,意思決定空間を複数の単純な会話のターンに分割することが,その診断的推論に与える影響について検討する。
具体的には、モデル信念(正しい診断や、誤った提案に対する安全な棄却)と柔軟性(正しい提案が導入されたときの認識)を会話間で測定する「スティック・オア・スウィッチ」評価フレームワークを開発する。
実験の結果,単発ベースラインと比較してマルチターンインタラクションが常に性能を低下させるような会話税が明らかになった。
特に、モデルは、間違ったユーザ提案に合わせるために、最初の正しい診断と安全な棄権を放棄することが多い。
さらに、いくつかのモデルはブラインドスイッチを示し、信号と誤った提案を区別することができない。
関連論文リスト
- Note2Chat: Improving LLMs for Multi-Turn Clinical History Taking Using Medical Notes [17.99778043736069]
医用ノートから学習することで, LLMを学習し, 構造化された履歴の取得と診断を行うためのノート駆動フレームワークを提案する。
我々は,実世界の医療ノートを,意思決定木誘導型生成・改善パイプラインを用いて高品質な医師と患者との対話に変換する。
また,一転推論問題の一列として歴史を再編成する新しい一転推論パラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-29T11:05:46Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [2.3011663397108078]
3MDBenchは、LVLM駆動の遠隔医療相談をシミュレートし評価するためのオープンソースのフレームワークである。
内部推論によるマルチモーダル対話は、非対話設定よりもF1スコアが6.5%向上する。
診断畳み込みニューラルネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%向上する。
論文 参考訳(メタデータ) (2025-03-26T07:32:05Z) - Ask Patients with Patience: Enabling LLMs for Human-Centric Medical Dialogue with Grounded Reasoning [25.068780967617485]
大規模言語モデル(LLM)は潜在的な解決策を提供するが、現実の臨床的相互作用に苦慮する。
Ask patients with Patience (APP) は,基礎的推論,透明な診断,人間中心のインタラクションを目的とした多ターンLCMベースの医療アシスタントである。
APPは共感的対話を通じてユーザ症状を誘発することでコミュニケーションを強化し、アクセシビリティとユーザエンゲージメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-11T00:13:52Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。