論文の概要: Optimal Question Selection from a Large Question Bank for Clinical Field Recovery in Conversational Psychiatric Intake
- arxiv url: http://arxiv.org/abs/2604.22067v2
- Date: Mon, 27 Apr 2026 18:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.809995
- Title: Optimal Question Selection from a Large Question Bank for Clinical Field Recovery in Conversational Psychiatric Intake
- Title(参考訳): 会話型精神疾患における臨床現場回復のための大銀行からの最適質問選択
- Authors: Guan Gui, Peter Zandi, Jacob Taylor, Ananya Joshi,
- Abstract要約: 精神医学的摂取は、シーケンシャルで高い情報収集プロセスである。
医療における会話型AIへの関心が高まっているが、このアプリケーションには会話型AIのインフラは限られている。
我々はこの課題を,臨床的根拠のある質問,既知の対象情報,コントロール可能な患者難易度を備えた質問選択問題として定式化する。
- 参考スコア(独自算出の注目度): 8.906787949840357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Psychiatric intake is a sequential, high-stakes information-gathering process in which clinicians must decide what to ask, in what order, and how to interpret incomplete or ambiguous responses under limited time. Despite growing interest in conversational AI for healthcare, there is still limited infrastructure for conversational AI in this application. Accordingly, we formulate this task as a question-selection problem with clinically grounded questions, known target information, and controllable patient difficulty. We also introduce a task-specific question-selection benchmark based on a bank of 655 clinician-authored intake questions and corresponding synthetic patient vignettes with 5 different behavioral conditions. In our evaluation, we compare random questioning, a clinical psychiatric intake form baseline, and an LLM-guided adaptive policy across 300 interview sessions spanning four patients and five behavioral conditions. Across the benchmark, the clinically ordered fixed form substantially outperforms random questioning, and the LLM-guided policy achieves the strongest overall recovery. The advantage of adaptation grows sharply under patient behavior that is less amenable to field recovery, especially under guarded-concise conditions. These findings suggest that performance in conversational clinical systems depends not only on language understanding after information is disclosed, but also on whether the system reaches the right topics within a limited interaction budget. More broadly, the benchmark provides a controlled framework for studying how clinical structure and adaptive follow-up contribute to information recovery in interactive clinical machine learning.
- Abstract(参考訳): 精神医学的摂取(英: Psychiatric intake)とは、臨床医がどのような質問をするか、どの順番で、どのように不完全または曖昧な反応を限定的に解釈するかを判断しなければならない、逐次かつ高い情報収集プロセスである。
医療における会話型AIへの関心が高まっているが、このアプリケーションには会話型AIのインフラは限られている。
そこで我々は,この課題を,臨床的根拠のある質問,既知の対象情報,コントロール可能な患者難易度を有する質問選択問題として定式化する。
また,5つの異なる行動条件をもつ655名の臨床医師による摂取質問とそれに対応する合成患者ビグネットに基づいて,タスク固有の質問選択ベンチマークも導入した。
本評価では,患者4名と行動条件5名を対象に,ランダムな質問,臨床精神医学的インテークフォームのベースライン,およびLLM誘導適応政策を300回のインタビューセッションで比較した。
ベンチマーク全体を通して、臨床に順序付けられた固定形式はランダムな質問よりも大幅に優れており、LSM誘導ポリシーは最も高い総合的な回復を達成する。
適応の利点は、特に保護された簡潔な条件下では、フィールドリカバリに適さない患者行動下で急激に成長する。
これらの結果から,対話型臨床システムの性能は,情報開示後の言語理解にのみ依存するだけでなく,限られた対話予算の範囲内で適切な話題に到達するかどうかにも依存することが示唆された。
より広範に、このベンチマークは、インタラクティブな臨床機械学習において、臨床構造と適応的なフォローアップが情報回復にどのように貢献するかを研究するための制御されたフレームワークを提供する。
関連論文リスト
- Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations [2.337503919179969]
実際の医療相談で一般的に発生する患者行動について検討する。
各動作について、安全でない応答をキャプチャする具体的な障害基準を指定する。
患者発話に対する応答について,オープンおよびクローズドソースのLCMについて検討した。
論文 参考訳(メタデータ) (2026-03-31T07:42:07Z) - MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation [5.601620793903095]
精神科相談のための統合的調査・診断強化学習フレームワーク MIND を提案する。
具体的には,会話コンテキストを臨床検索状態に要約するクリテリア・グラウンド精神医学推論銀行(PRB)を構築した。
この基礎の上に構築されたMINDは、中間決定ステップに対するきめ細かい監督を提供するために、ルーリックベースのプロセス報酬による明確な臨床推論を強制する。
論文 参考訳(メタデータ) (2026-03-04T03:05:38Z) - MedConsultBench: A Full-Cycle, Fine-Grained, Process-Aware Benchmark for Medical Consultation Agents [10.109613967215447]
MedConsultBenchは,オンラインコンサルテーションサイクルの完全な評価を目的とした総合的なフレームワークである。
本手法では,臨床情報取得をサブターンレベルで追跡するために,AIU(Atomic Information Units)を導入している。
オンラインコンサルティングに固有の不明瞭さと曖昧さに対処することで、このベンチマークは不確実性を認識しながら簡潔な調査を評価する。
論文 参考訳(メタデータ) (2026-01-19T02:18:10Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Beyond MedQA: Towards Real-world Clinical Decision Making in the Era of LLMs [37.6690828097719]
大型言語モデル (LLM) は臨床応用の可能性を示唆している。
多くの医学データセットは、現実の臨床的意思決定を過小評価する簡易的な質問回答 (QA) に依存している。
臨床背景と臨床質問の2つの側面に沿って臨床意思決定タスクを特徴付ける統一パラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-22T20:06:10Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - AgentMental: An Interactive Multi-Agent Framework for Explainable and Adaptive Mental Health Assessment [31.920800599579906]
メンタルヘルスアセスメントは早期介入と効果的な治療に不可欠であるが、伝統的な臨床医ベースのアプローチは資格のある専門家の不足によって制限される。
人工知能の最近の進歩は、自動心理学的評価への関心が高まりつつあるが、既存のほとんどのアプローチは静的テキスト分析に依存しているため制約されている。
臨床医と患者との対話をシミュレートした精神保健評価のためのマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-15T16:20:45Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。