論文の概要: All Required, In Order: Phase-Level Evaluation for AI-Human Dialogue in Healthcare and Beyond
- arxiv url: http://arxiv.org/abs/2601.08690v1
- Date: Tue, 13 Jan 2026 16:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.27779
- Title: All Required, In Order: Phase-Level Evaluation for AI-Human Dialogue in Healthcare and Beyond
- Title(参考訳): AI-Humanダイアログのフェーズレベル評価
- Authors: Shubham Kulkarni, Alexander Lyzhov, Shiva Chaitanya, Preetam Joshi,
- Abstract要約: OIP-SCE ( Obligatory-Information Phase Structured Compliance Evaluation) を導入する。
OIP-SCEは、必要なすべての臨床義務が正しい順序で満たされているかどうかを、臨床医がレビューする明確な証拠で確認する。
これにより、複雑なルールが実用的かつ監査可能になり、技術的進歩と医療が本当に必要とするものの間のギャップを埋める助けになる。
- 参考スコア(独自算出の注目度): 40.157413213893165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational AI is starting to support real clinical work, but most evaluation methods miss how compliance depends on the full course of a conversation. We introduce Obligatory-Information Phase Structured Compliance Evaluation (OIP-SCE), an evaluation method that checks whether every required clinical obligation is met, in the right order, with clear evidence for clinicians to review. This makes complex rules practical and auditable, helping close the gap between technical progress and what healthcare actually needs. We demonstrate the method in two case studies (respiratory history, benefits verification) and show how phase-level evidence turns policy into shared, actionable steps. By giving clinicians control over what to check and engineers a clear specification to implement, OIP-SCE provides a single, auditable evaluation surface that aligns AI capability with clinical workflow and supports routine, safe use.
- Abstract(参考訳): 会話型AIは実際の臨床作業をサポートし始めているが、ほとんどの評価手法では、コンプライアンスが会話の全過程に依存することを見逃している。
OIP-SCE(Oligatory-Information Phase Structured Compliance Evaluation, OIP-SCE)を導入する。
これにより、複雑なルールが実用的かつ監査可能になり、技術的進歩と医療が本当に必要とするものの間のギャップを埋める助けになる。
本手法は,2つのケーススタディ (呼吸履歴, 効果検証) で実証し, フェーズレベルのエビデンスによって政策が共有され, 行動可能なステップにどのように変換されるかを示す。
OIP-SCEは、臨床医に何をチェックすべきかを制御し、エンジニアが実装する明確な仕様を提供することで、AI能力を臨床ワークフローと整合させ、ルーチンで安全な使用をサポートする単一の監査可能な評価サーフェスを提供する。
関連論文リスト
- Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - CP-Env: Evaluating Large Language Models on Clinical Pathways in a Controllable Hospital Environment [29.48544328813161]
本研究は,大規模言語モデル(LLM)をエンド・ツー・エンドの医療経路にわたって評価するために設計された,コントロール可能なエージェント型病院環境であるCP-Envを紹介する。
実際の病院適応的な医療の流れに続き、分枝型長期タスク実行を可能にします。
その結果、ほとんどのモデルは経路幻覚に悩まされ、複雑さを示し、重要な診断の詳細を失うことが判明した。
論文 参考訳(メタデータ) (2025-12-11T01:54:55Z) - Before the Clinic: Transparent and Operable Design Principles for Healthcare AI [42.994619952353396]
医療AIの先進的な技術的要件を運用するための基本設計原則を2つ提案する。
我々は、これらの原則を確立されたXAIフレームワークに根ざし、それらをドキュメント化された臨床ニーズにマッピングし、新たなガバナンス要件との整合性を実証します。
この前臨床プレイブックは、開発チームに対して実行可能なガイダンスを提供し、臨床評価への道を加速し、AI研究者、医療実践家、規制ステークホルダーを分かち合う共通語彙を確立する。
論文 参考訳(メタデータ) (2025-10-31T04:05:09Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。
臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文 参考訳(メタデータ) (2025-03-02T11:45:50Z) - Beyond One-Time Validation: A Framework for Adaptive Validation of Prognostic and Diagnostic AI-based Medical Devices [55.319842359034546]
既存のアプローチは、これらのデバイスを実際にデプロイする際の複雑さに対処するのに不足することが多い。
提示されたフレームワークは、デプロイメント中に検証と微調整を繰り返すことの重要性を強調している。
現在の米国とEUの規制分野に位置づけられている。
論文 参考訳(メタデータ) (2024-09-07T11:13:52Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - A Methodology for Bi-Directional Knowledge-Based Assessment of
Compliance to Continuous Application of Clinical Guidelines [1.52292571922932]
ケアプロセスのガイドラインに基づく品質評価を自動化するための新しいアプローチを提案する。
BiKBAC法は臨床ガイドラインを適用する際のコンプライアンスの度合いを評価する。
DiscovErrシステムは、2型糖尿病管理領域の別の研究で評価されました。
論文 参考訳(メタデータ) (2021-03-13T20:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。