論文の概要: Beyond Medical Chatbots: Meddollina and the Rise of Continuous Clinical Intelligence
- arxiv url: http://arxiv.org/abs/2601.22645v1
- Date: Fri, 30 Jan 2026 07:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.286618
- Title: Beyond Medical Chatbots: Meddollina and the Rise of Continuous Clinical Intelligence
- Title(参考訳): 医療チャットボットを超えて:Meddollinaと継続的臨床知能の台頭
- Authors: Vaibhav Ram S. V. N. S, Swetanshu Agrawal, Samudra Banerjee, Abdul Muhsin,
- Abstract要約: 臨床コンテキストインテリジェンス(CCI)を実世界の臨床に必要とされる能力クラスとして定式化する。
本稿では,言語の実現前に推論を制約するガバナンスファーストな臨床インテリジェンスシステムであるMeddollinaを紹介する。
16,412以上のヘテロジニアスな医療クエリを対象とした行動優先型システムを用いてMeddollinaの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative medical AI now appears fluent and knowledgeable enough to resemble clinical intelligence, encouraging the belief that scaling will make it safe. But clinical reasoning is not text generation. It is a responsibility-bound process under ambiguity, incomplete evidence, and longitudinal context. Even as benchmark scores rise, generation-centric systems still show behaviours incompatible with clinical deployment: premature closure, unjustified certainty, intent drift, and instability across multi-step decisions. We argue these are structural consequences of treating medicine as next-token prediction. We formalise Clinical Contextual Intelligence (CCI) as a distinct capability class required for real-world clinical use, defined by persistent context awareness, intent preservation, bounded inference, and principled deferral when evidence is insufficient. We introduce Meddollina, a governance-first clinical intelligence system designed to constrain inference before language realisation, prioritising clinical appropriateness over generative completeness. Meddollina acts as a continuous intelligence layer supporting clinical workflows while preserving clinician authority. We evaluate Meddollina using a behaviour-first regime across 16,412+ heterogeneous medical queries, benchmarking against general-purpose models, medical-tuned models, and retrieval-augmented systems. Meddollina exhibits a distinct behavioural profile: calibrated uncertainty, conservative reasoning under underspecification, stable longitudinal constraint adherence, and reduced speculative completion relative to generation-centric baselines. These results suggest deployable medical AI will not emerge from scaling alone, motivating a shift toward Continuous Clinical Intelligence, where progress is measured by clinician-aligned behaviour under uncertainty rather than fluency-driven completion.
- Abstract(参考訳): ジェネレーティブな医療AIは、臨床知能に類似するほど流動的で知識に富んでいるように見え、スケーリングがそれを安全にするという考えを奨励している。
しかし、臨床推論はテキスト生成ではない。
曖昧さ、不完全な証拠、そして縦断的な文脈の下で責任を負うプロセスである。
ベンチマークスコアが上昇しても、世代中心のシステムは、未成熟のクロージャ、不正な確実性、意図の漂流、複数ステップの意思決定における不安定性といった、臨床展開と相容れない振る舞いを示す。
我々はこれらが医学を次世代の予測として扱うという構造的な結果であると主張している。
臨床コンテキストインテリジェンス(CCI)は,実証が不十分な場合に,持続的文脈認識,意図の保存,有界推論,原則的推論によって定義される,現実的な臨床利用に必要な個別の能力クラスとして定式化される。
我々は,ジェネレーション完全性よりも臨床的適切性を優先して,言語の実現前に推論を制約するガバナンスファーストな臨床知能システムであるMeddollinaを紹介した。
メドドリナは、臨床の権威を維持しながら、臨床ワークフローをサポートする継続的なインテリジェンス層として機能する。
我々は16,412以上のヘテロジニアスな医療クエリにまたがる行動優先型システムを用いてMeddollinaを評価する。
メドドリナは、キャリブレーションされた不確実性、不特定性の下での保守的な推論、安定な縦断的拘束の固着、世代中心の基線に対する投機的完了の縮小など、明確な行動プロファイルを示す。
これらの結果は、デプロイ可能な医療AIが単独でスケールすることから、継続的臨床インテリジェンスへのシフトを動機づけるものではないことを示唆している。
関連論文リスト
- How Clinicians Think and What AI Can Learn From It [0.0]
ほとんどの臨床AIシステムは、ラベルやリスクスコアを生成する予測エンジンとして動作するが、実際の臨床推論は、不確実性の下で、時間に縛られたシーケンシャルな制御の問題である。
クリニック推論の主流となる計算基板は、基数最適化ではなく、順序的、非補償的意思決定であると主張する。
論文 参考訳(メタデータ) (2026-01-18T19:19:41Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - MedCEG: Reinforcing Verifiable Medical Reasoning with Critical Evidence Graph [17.320322032287894]
MedCEGは医療言語モデルに臨床的に有効な推論経路を付加するフレームワークである。
推論プロセスの指針として,臨床推論手順の見直しを紹介する。
実験結果から,MedCEGは臨床的に妥当な推論鎖を産生しながら,既存の方法を上回る性能を示した。
論文 参考訳(メタデータ) (2025-12-15T16:38:46Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T12:20:01Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [54.98321887435557]
本稿では, マルチモーダル入力特徴と臨床治験設計における8つの重要な予測課題を網羅した, 精巧にキュレートされた23個のAI対応データセットについて述べる。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。