論文の概要: Bridging the Knowledge-Action Gap by Evaluating LLMs in Dynamic Dental Clinical Scenarios
- arxiv url: http://arxiv.org/abs/2601.12974v1
- Date: Mon, 19 Jan 2026 11:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.884109
- Title: Bridging the Knowledge-Action Gap by Evaluating LLMs in Dynamic Dental Clinical Scenarios
- Title(参考訳): 動的歯科臨床シナリオにおけるLLM評価による知識アクションギャップのブリッジ化
- Authors: Hongyang Ma, Tiantian Gu, Huaiyuan Sun, Huilin Zhu, Yongxin Wang, Jie Li, Wubin Sun, Zeliang Lian, Yinghong Zhou, Yi Gao, Shirui Wang, Zhihui Tang,
- Abstract要約: 受動的知識検索装置から自律的臨床エージェントへの大規模言語モデル(LLM)の移行は、静的精度から動的行動信頼性への評価のシフトを要求する。
本研究は, 歯科用LLMの能力境界を実証的に表し, 標準化された知識と安全で自律的な臨床実践のギャップを埋めるためのロードマップを提供する。
- 参考スコア(独自算出の注目度): 9.865786198063644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transition of Large Language Models (LLMs) from passive knowledge retrievers to autonomous clinical agents demands a shift in evaluation-from static accuracy to dynamic behavioral reliability. To explore this boundary in dentistry, a domain where high-quality AI advice uniquely empowers patient-participatory decision-making, we present the Standardized Clinical Management & Performance Evaluation (SCMPE) benchmark, which comprehensively assesses performance from knowledge-oriented evaluations (static objective tasks) to workflow-based simulations (multi-turn simulated patient interactions). Our analysis reveals that while models demonstrate high proficiency in static objective tasks, their performance precipitates in dynamic clinical dialogues, identifying that the primary bottleneck lies not in knowledge retention, but in the critical challenges of active information gathering and dynamic state tracking. Mapping "Guideline Adherence" versus "Decision Quality" reveals a prevalent "High Efficacy, Low Safety" risk in general models. Furthermore, we quantify the impact of Retrieval-Augmented Generation (RAG). While RAG mitigates hallucinations in static tasks, its efficacy in dynamic workflows is limited and heterogeneous, sometimes causing degradation. This underscores that external knowledge alone cannot bridge the reasoning gap without domain-adaptive pre-training. This study empirically charts the capability boundaries of dental LLMs, providing a roadmap for bridging the gap between standardized knowledge and safe, autonomous clinical practice.
- Abstract(参考訳): 受動的知識検索装置から自律的臨床エージェントへの大規模言語モデル(LLM)の移行は、静的精度から動的行動信頼性への評価のシフトを要求する。
高品質なAIアドバイスが患者参加型意思決定に一意に力を与える領域である歯科領域におけるこの境界を探求するため,我々は,知識指向評価(静的な目的課題)からワークフローに基づくシミュレーション(マルチターンシミュレーションされた患者間相互作用)に至るまで,パフォーマンスを包括的に評価するSCMPE(Standardized Clinical Management & Performance Evaluation)ベンチマークを提案する。
解析の結果,静的な目標タスクにおいてモデルが高い習熟度を示す一方で,その性能はダイナミックな臨床対話に起因し,主要なボトルネックは知識保持ではなく,アクティブな情報収集や動的状態追跡における重要な課題であることがわかった。
ガイドラインの整合性」と「決定品質」をマッピングすると、一般的なモデルでは「高い効率、低い安全性」のリスクが明らかになる。
さらに,検索・拡張生成(RAG)の影響を定量化する。
RAGは静的タスクにおける幻覚を緩和するが、動的ワークフローにおけるその有効性は限定的で不均一であり、時には劣化を引き起こす。
これは、外部知識だけでは、ドメイン適応型事前トレーニングなしで推論ギャップを埋めることはできないことを強調している。
本研究は, 歯科用LLMの能力境界を実証的に表し, 標準化された知識と安全で自律的な臨床実践のギャップを埋めるためのロードマップを提供する。
関連論文リスト
- ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Causal Reinforcement Learning based Agent-Patient Interaction with Clinical Domain Knowledge [3.2434118923825483]
強化学習(RL)は、データが不足している認知症ケアなど、適応的な医療介入において重大な課題に直面している。
本稿では、因果発見と推論をポリシー最適化に明示的に統合する、因果構造対応強化学習(CRL)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T22:38:03Z) - Exploring Membership Inference Vulnerabilities in Clinical Large Language Models [42.52690697965999]
臨床大言語モデル(LLM)におけるメンバーシップ推論脆弱性の探索的研究について述べる。
最新の臨床質問応答モデルであるLlemrを用いて、標準的損失に基づく攻撃とドメインを動機としたパラフレージングに基づく摂動戦略の両方を評価する。
その結果は、コンテキスト認識、ドメイン固有のプライバシ評価、防衛の継続的な開発を動機付けている。
論文 参考訳(メタデータ) (2025-10-21T14:27:48Z) - Critical appraisal of artificial intelligence for rare-event recognition: principles and pharmacovigilance case studies [0.0]
高精細度AIアプリケーションは、目に見える精度が限られた実世界の価値を隠蔽する低頻度イベントをターゲットにしている。
希少な認識におけるAIの批判的評価に関する重要な考察を概説する。
薬物移動の枠組みを3つの研究に基づいてインスタンス化する。
論文 参考訳(メタデータ) (2025-10-05T20:05:38Z) - Are Large Language Models Dynamic Treatment Planners? An In Silico Study from a Prior Knowledge Injection Angle [3.0391297540732545]
インシリコ1型糖尿病シミュレーターにおいて,大型言語モデル (LLM) を動的インスリン投与剤として評価した。
以上の結果より, ゼロショットプロンプトを慎重に設計することで, より小型のLCMが同等あるいは優れた臨床成績を達成できることが示唆された。
LLMは、チェーン・オブ・シンドロームで刺激された時に過度にアグレッシブなインスリン投与など、顕著な制限を呈する。
論文 参考訳(メタデータ) (2025-08-06T13:46:02Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。