論文の概要: Quantifying the Expectation-Realisation Gap for Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2602.20292v1
- Date: Mon, 23 Feb 2026 19:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.496363
- Title: Quantifying the Expectation-Realisation Gap for Agentic AI Systems
- Title(参考訳): エージェントAIシステムにおける期待-適応ギャップの定量化
- Authors: Sebastian Lobentanzer,
- Abstract要約: ソフトウェア開発では、経験豊富な開発者はAIツールから24%のスピードアップを期待していたが、19%減速した。
臨床文書では、ベンダーによる複数分間の節約の主張は、1ノートあたり1分未満の削減と対照的である。
臨床上の意思決定支援では、外部から検証されたパフォーマンスは、開発者報告のメトリクスよりもかなり低い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI systems are deployed with expectations of substantial productivity gains, yet rigorous empirical evidence reveals systematic discrepancies between pre-deployment expectations and post-deployment outcomes. We review controlled trials and independent validations across software engineering, clinical documentation, and clinical decision support to quantify this expectation-realisation gap. In software development, experienced developers expected a 24% speedup from AI tools but were slowed by 19% -- a 43 percentage-point calibration error. In clinical documentation, vendor claims of multi-minute time savings contrast with measured reductions of less than one minute per note, and one widely deployed tool showed no statistically significant effect. In clinical decision support, externally validated performance falls substantially below developer-reported metrics. These shortfalls are driven by workflow integration friction, verification burden, measurement construct mismatches, and systematic heterogeneity in treatment effects. The evidence motivates structured planning frameworks that require explicit, quantified benefit expectations with human oversight costs factored in.
- Abstract(参考訳): エージェントAIシステムは、実質的な生産性向上を期待してデプロイされるが、厳密な実証的な証拠は、デプロイ前の期待とデプロイ後の結果の体系的な相違を明らかにしている。
我々は,この期待と実現のギャップを定量化するために,ソフトウェア工学,臨床ドキュメント,臨床決定支援のコントロールされた試験と独立した検証についてレビューする。
ソフトウェア開発では、経験豊富な開発者はAIツールから24%のスピードアップを期待していたが、19%のスピードアップ – 43ポイントのキャリブレーションエラーだ。
臨床文献では, ベンダーによる複数分間の節約の主張は, 1ノートあたり1分未満の削減と対照的であり, 広く展開された1つのツールは統計的に有意な影響を示さなかった。
臨床上の意思決定支援では、外部から検証されたパフォーマンスは、開発者報告のメトリクスよりもかなり低い。
これらの欠点は、ワークフロー統合の摩擦、検証の負担、測定構成ミスマッチ、および治療効果の体系的不均一性によって引き起こされる。
この証拠は、人間の監視コストによる明確な定量的な利益期待を必要とする構造化された計画フレームワークを動機付けている。
関連論文リスト
- AI-assisted Protocol Information Extraction For Improved Accuracy and Efficiency in Clinical Trial Workflows [0.0]
プロトコルコンテンツを標準フォーマットに構造化することは、効率を改善し、ドキュメントの品質をサポートし、コンプライアンスを強化する可能性がある。
自動治験プロトコル情報抽出のためのRAG(RetrievalAugmented Generation)を用いた生成LDMを用いた人工知能(AI)システムの評価を行った。
論文 参考訳(メタデータ) (2026-01-19T18:38:36Z) - Technical Report: Facilitating the Adoption of Causal Inference Methods Through LLM-Empowered Co-Pilot [44.336297829718795]
CATE-Bは,大規模言語モデル(LLM)をエージェントフレームワーク内で使用して,治療効果推定を通じてユーザを誘導する,オープンソースのコパイロットシステムである。
CATE-B は (i) 因果発見と LLM に基づくエッジオリエンテーションによる構造因果モデルの構築、 (ii) 因果構造とデータセット特性に適合した適切な回帰方法を選択することによるロバストな調整セットの同定を支援する。
論文 参考訳(メタデータ) (2025-08-14T12:20:51Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Will Large Language Models Transform Clinical Prediction? [6.239284099493876]
大規模言語モデル(LLM)は、医療への関心が高まっている。
本解説は,臨床予測モデル(CPM)を診断・予後タスクに応用するためのLSMの可能性を評価するものである。
論文 参考訳(メタデータ) (2025-05-23T17:02:04Z) - Incremental Uncertainty-aware Performance Monitoring with Active Labeling Intervention [64.12447263206381]
Incrmental Uncertainty-aware Performance Monitoring (IUPM) というラベルのない手法を提案する。
IUPMは、性能予測の不確実性を定量化し、限られたラベル付け予算の下で信頼性の高い見積もりを復元するアクティブなラベル付け手順を導入する。
実験の結果、IUPMは様々な段階的なシフトシナリオにおいて、既存の性能推定基準よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-11T15:35:55Z) - Advancing clinical trial outcomes using deep learning and predictive modelling: bridging precision medicine and patient-centered care [0.0]
深層学習と予測モデリングは、臨床試験設計、患者採用、リアルタイムモニタリングを最適化するための変換ツールとして登場した。
本研究では、畳み込みニューラルネットワーク(CNN)やトランスフォーマーモデルなどの深層学習技術の患者層化への応用について検討する。
生存分析や時系列予測を含む予測モデリング手法は、試行結果の予測、効率の向上、試行失敗率の低減に用いられている。
論文 参考訳(メタデータ) (2024-12-09T23:20:08Z) - Active Inference on the Edge: A Design Study [5.815300670677979]
アクティブ推論(アクティブ推論、英: Active Inference、ACI)とは、脳が知覚情報を常に予測し評価し、長期的サプライズを減らす方法を記述する神経科学の概念である。
我々は,ACIエージェントが要求を満たすことなく,最適化問題を迅速かつ追跡的に解決できたことを示す。
論文 参考訳(メタデータ) (2023-11-17T16:03:04Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - U-PASS: an Uncertainty-guided deep learning Pipeline for Automated Sleep
Staging [61.6346401960268]
プロセスの各段階で不確実性推定を組み込んだ臨床応用に適した,U-PASSと呼ばれる機械学習パイプラインを提案する。
不確実性誘導型ディープラーニングパイプラインを睡眠ステージングの困難な問題に適用し、各ステージにおけるパフォーマンスを体系的に改善することを示す。
論文 参考訳(メタデータ) (2023-06-07T08:27:36Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。