Fugu-MT 論文翻訳(概要): From Black-Box Confidence to Measurable Trust in Clinical AI: A Framework for Evidence, Supervision, and Staged Autonomy

論文の概要: From Black-Box Confidence to Measurable Trust in Clinical AI: A Framework for Evidence, Supervision, and Staged Autonomy

arxiv url: http://arxiv.org/abs/2604.26671v1
Date: Wed, 29 Apr 2026 13:40:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 15:59:36.422883
Title: From Black-Box Confidence to Measurable Trust in Clinical AI: A Framework for Evidence, Supervision, and Staged Autonomy
Title（参考訳）: ブラックボックスの信頼から臨床AIにおける測定可能な信頼へ:エビデンス、スーパービジョン、ステージド・オートノミーのためのフレームワーク
Authors: Serhii Zabolotnii, Viktoriia Holinko, Olha Antonenko,
Abstract要約: 臨床人工知能(AI)の信頼度は、精度、生成の頻度、全体的な肯定的なユーザ印象のモデル化に還元できない。本稿では、エビデンス、監督、ステージド自律性という3つの原則に基づいて構築された、信頼できる臨床AIのためのフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Trust in clinical artificial intelligence (AI) cannot be reduced to model accuracy, fluency of generation, or overall positive user impression. In medicine, trust must be engineered as a measurable system property grounded in evidence, supervision, and operational boundaries of AI autonomy. This article proposes a practical framework for trustworthy clinical AI built around three principles: evidence, supervision, and staged autonomy. Rather than replacing deterministic clinical logic wholesale with end-to-end black-box models, the proposed approach combines a deterministic core, a patient-specific AI assistant for contextual validation, a multi-tier model escalation mechanism, and a human supervision layer for verification, escalation, and risk control. We demonstrate that trust also depends on selective verification of clinically critical findings, bounded clinical context, disciplined prompt architecture, and careful evaluation on realistic cases. Classifier-driven modular prompting is examined as an incremental path to scaling clinical depth without sacrificing prompt performance and without waiting for complete rule-based coverage. To operationalize trust, a set of trust metrics is proposed, built on metrological principles -- measurement uncertainty, calibration, traceability -- enabling quantitative rather than subjective assessment of each architectural layer. In this perspective, trustworthy clinical AI emerges not as a property of an individual model, but as an architectural outcome of a system into which evidence trails, human oversight, tiered escalation, and graduated action rights are embedded from the outset.
Abstract（参考訳）: 臨床人工知能(AI)の信頼度は、精度、生成の頻度、全体的な肯定的なユーザ印象のモデル化に還元できない。医学において、信頼は、AI自律性の証拠、監督、運用境界に基づく測定可能なシステム資産として設計されなければならない。本稿は、エビデンス、監督、ステージド・自律という3つの原則に基づいて構築された、信頼できる臨床AIのための実践的なフレームワークを提案する。提案手法は,決定論的臨床論理を終末から終末までのブラックボックスモデルに置き換えるのではなく,決定論的コア,コンテキスト検証のための患者固有のAIアシスタント,多層モデルエスカレーション機構,検証,エスカレーション,リスク管理のための人間監督層を組み合わせる。また,臨床批判的所見の選択的検証,臨床コンテキスト境界,規律付きプロンプトアーキテクチャ,現実的症例に対する慎重な評価にも依存することを示した。分類器駆動型モジュールプロンプトは, 即時性能を犠牲にせず, 完全なルールベースカバレッジを待たずに, 臨床深度を増大させる段階的な経路として検討される。信頼を運用するために、信頼度基準のセットが提案され、それぞれのアーキテクチャレイヤの主観的な評価ではなく、定量的な評価を可能にする、メトリクス的原則(測定の不確実性、キャリブレーション、トレーサビリティ)に基づいて構築されている。この観点では、信頼できる臨床AIは、個々のモデルの特性としてではなく、エビデンス・トレイル、人間の監視、密着したエスカレーション、そして昇格した行動権が最初から組み込まれているシステムのアーキテクチャ上の結果として現れる。

関連論文リスト

Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。 EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文参考訳（メタデータ） (2026-04-17T13:27:11Z)
Grounding Clinical AI Competency in Human Cognition Through the Clinical World Model and Skill-Mix Framework [2.048286515359845]
本稿では,三者間相互作用としてケアを形式化する臨床世界モデルを紹介する。我々は、提供者、患者、AIエージェントのための並列意思決定アーキテクチャを開発する。このフレームワークは、臨床AIをステークホルダー間で特定、評価、バウンドできる共通の文法を提供する。
論文参考訳（メタデータ） (2026-04-09T13:20:13Z)
Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。 ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文参考訳（メタデータ） (2026-03-18T06:15:35Z)
Overalignment in Frontier LLMs: An Empirical Study of Sycophantic Behaviour in Healthcare [1.9010852820067994]
モデル不安定性("Confusability")を考慮してアライメントバイアスを分離する新しい尺度であるAdjusted Sycophancy Scoreを提案する。以上の結果から, ベンチマーク性能は臨床信頼性の指標ではないことが示唆され, 簡易な推論構造は, 専門家主導の薬効に対して優れた堅牢性をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2026-01-26T10:21:34Z)
"Crash Test Dummies" for AI-Enabled Clinical Assessment: Validating Virtual Patient Scenarios with Virtual Learners [0.0]
医療と医療の専門職教育において、AIは仮想的な標準化された患者を含む臨床能力の評価にますます利用されている。ほとんどの評価はAIと人間のインターレータの信頼性に依存しており、ケース、学習者、ラッカーが共同でスコアを形作るための測定フレームワークが欠如している。事例と評価条件をまたいだ堅牢な能力評価のための,オープンソースのプラットフォームと測定モデルを構築した。
論文参考訳（メタデータ） (2026-01-26T02:47:28Z)
AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文参考訳（メタデータ） (2026-01-23T11:59:13Z)
Bridging the Knowledge-Action Gap by Evaluating LLMs in Dynamic Dental Clinical Scenarios [9.865786198063644]
受動的知識検索装置から自律的臨床エージェントへの大規模言語モデル(LLM)の移行は、静的精度から動的行動信頼性への評価のシフトを要求する。本研究は, 歯科用LLMの能力境界を実証的に表し, 標準化された知識と安全で自律的な臨床実践のギャップを埋めるためのロードマップを提供する。
論文参考訳（メタデータ） (2026-01-19T11:36:39Z)
Interpretable Clinical Classification with Kolgomorov-Arnold Networks [70.72819760172744]
Kolmogorov-Arnold Networks (KAN) は、透明で象徴的な表現を通じて固有の解釈能力を提供する。 Kansは、組み込みの患者レベルの洞察、直感的な可視化、最寄りの患者の検索をサポートする。これらの結果は、カンを、臨床医が理解し、監査し、行動できる信頼できるAIへの有望なステップと位置づけている。
論文参考訳（メタデータ） (2025-09-20T17:21:58Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
The challenge of uncertainty quantification of large language models in medicine [0.0]
本研究では,医学応用のための大規模言語モデル(LLM)の不確実性定量化について検討する。私たちの研究は、不確実性を障壁としてではなく、AI設計に対する動的で反射的なアプローチを招待する知識の不可欠な部分として捉えています。
論文参考訳（メタデータ） (2025-04-07T17:24:11Z)
TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文参考訳（メタデータ） (2023-07-19T12:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。