論文の概要: Adoption, usability and perceived clinical value of a UK AI clinical reference platform (iatroX): a mixed-methods formative evaluation of real-world usage and a 1,223-respondent user survey
- arxiv url: http://arxiv.org/abs/2509.21188v1
- Date: Thu, 25 Sep 2025 14:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.960943
- Title: Adoption, usability and perceived clinical value of a UK AI clinical reference platform (iatroX): a mixed-methods formative evaluation of real-world usage and a 1,223-respondent user survey
- Title(参考訳): 英国AIクリニカルリファレンスプラットフォーム(iatroX)の採用、使用性および臨床的価値 : 実世界利用の混合的評価と1,223対応ユーザ調査
- Authors: Kolawole Tytler,
- Abstract要約: 臨床医は、バイオメディカル文献やガイドラインからの情報過剰が増加し、エビデンスベースのケアを妨げている。
RAGをベースとした臨床リファレンスプラットフォームであるiatroXについて述べる。
本報告では, 早期導入, ユーザビリティ, 臨床的価値を, 形式的実装評価から報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinicians face growing information overload from biomedical literature and guidelines, hindering evidence-based care. Retrieval-augmented generation (RAG) with large language models may provide fast, provenance-linked answers, but requires real-world evaluation. We describe iatroX, a UK-centred RAG-based clinical reference platform, and report early adoption, usability, and perceived clinical value from a formative implementation evaluation. Methods comprised a retrospective analysis of usage across web, iOS, and Android over 16 weeks (8 April-31 July 2025) and an in-product intercept survey. Usage metrics were drawn from web and app analytics with bot filtering. A client-side script randomized single-item prompts to approx. 10% of web sessions from a predefined battery assessing usefulness, reliability, and adoption intent. Proportions were summarized with Wilson 95% confidence intervals; free-text comments underwent thematic content analysis. iatroX reached 19,269 unique web users, 202,660 engagement events, and approx. 40,000 clinical queries. Mobile uptake included 1,960 iOS downloads and Android growth (peak >750 daily active users). The survey yielded 1,223 item-level responses: perceived usefulness 86.2% (95% CI 74.8-93.9%; 50/58); would use again 93.3% (95% CI 68.1-99.8%; 14/15); recommend to a colleague 88.4% (95% CI 75.1-95.9%; 38/43); perceived accuracy 75.0% (95% CI 58.8-87.3%; 30/40); reliability 79.4% (95% CI 62.1-91.3%; 27/34). Themes highlighted speed, guideline-linked answers, and UK specificity. Early real-world use suggests iatroX can mitigate information overload and support timely answers for UK clinicians. Limitations include small per-item samples and early-adopter bias; future work will include accuracy audits and prospective studies on workflow and care quality.
- Abstract(参考訳): 臨床医は、バイオメディカル文献やガイドラインからの情報過剰が増加し、エビデンスベースのケアを妨げている。
大規模言語モデルを持つ検索拡張生成(RAG)は、高速で証明に結びついた回答を提供するが、実際の評価は必要である。
本稿では,イギリスのRAGをベースとした臨床リファレンスプラットフォームであるiatroXについて述べる。
メソッドは16週間(2025年4月8日から31日)にわたって、Web、iOS、Androidでの使用状況の振り返り分析と、製品内インターセプト調査で構成された。
使用メトリクスは、Webとアプリの分析からボットフィルタリングによって抽出された。
クライアント側のスクリプトがランダム化されたシングルイテムのプロンプトをアロックスする。
Webセッションの10%は、有用性、信頼性、採用意図を評価した、事前に定義されたバッテリーによるものだ。
提案はWilson氏の95%の信頼区間で要約され、フリーテキストのコメントはテーマによるコンテンツ分析を受けた。
IAtroXは、19,269のユニークなWebユーザ、202,660のエンゲージメントイベント、そしてアポックスに達した。
臨床検査は4万件
モバイルの売上は1,960件のiOSダウンロードとAndroidの成長(約750人)を含んでいる。
有効性 86.2% (95% CI 74.8-93.9%; 50/58); 再び93.3% (95% CI 68.1-99.8%; 14/15); 同僚に推奨する 88.4% (95% CI 75.1-95.9%; 38/43); 精度 75.0% (95% CI 58.8-87.3%; 30/40); 信頼性 79.4% (95% CI 62.1-91.3%; 27/34) である。
テーマはスピード、ガイドラインにリンクされた回答、イギリスの特異性を強調した。
初期の実世界での使用は、iatroXが情報の過負荷を軽減し、英国の臨床医のタイムリーな回答をサポートすることを示唆している。
制限には、小さなイテムサンプルとアーリーアダプターバイアスが含まれており、将来の作業には、正確性監査とワークフローとケア品質に関する将来の研究が含まれる。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems [19.880569341968023]
大規模言語モデル(LLM)は、幻覚や安全でない提案が患者の安全に直接的なリスクをもたらすという、臨床的な意思決定支援にますます利用されている。
本稿では,インスタンス固有の評価ルーリックの自動生成を目的とした検索拡張型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T16:40:41Z) - MLB: A Scenario-Driven Benchmark for Evaluating Large Language Models in Clinical Applications [27.73095565539546]
基礎知識とシナリオベース推論の両方に基づいて,LLM(Large Language Models)を評価するベンチマークである医療用LLMベンチマークMLBを紹介する。
MLBは、医療知識(MedKQA)、安全と倫理(MedSE)、医療記録理解(MedRU)、スマートサービス(SmartServ)、スマートヘルスケア(SmartCare)の5つのコア次元で構成されている。
その設計は、300人の医師が参加する厳格なキュレーションパイプラインを特徴としている。また、専門家アノテーションに基づいて訓練されたSFT(Supervised Fine-Tuning)を用いた特別審査モデルを中心に、スケーラブルな評価手法を提供する。
論文 参考訳(メタデータ) (2026-01-08T02:41:42Z) - Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。
入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文 参考訳(メタデータ) (2026-01-07T23:35:24Z) - Beyond Long Context: When Semantics Matter More than Tokens [0.0]
Electronic Health Recordsは、FHIR DocumentReferenceリソースにエンコードされたbase64アタッチメントとして、臨床ドキュメントを保存している。
Lopezらによって導入されたクリニカルエンティティ拡張検索(CLEAR)法は、エンティティ認識検索を使用している。
CLEARは58.3%の勝利率を達成し、平均的な意味的類似度は0.878であり、幅広いコンテキスト処理よりも78%少ないトークンを使用した。
論文 参考訳(メタデータ) (2025-10-29T16:41:44Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines [1.9615061725959186]
本稿では,Large Language Models (LLMs) を用いたNICE (National Institute for Health and Care Excellence) 臨床ガイドラインを検索するための検索型生成システムの開発と評価について述べる。
このシステムの検索アーキテクチャは,300のガイドラインから抽出した10,195個のテキストチャンクのデータベースに対して,ハイブリッドな埋め込み機構によって構成されている。
平均相反ランク(MRR)が0.814、第1チャンクで81%、検索チャンクで99.1%のリコールが7901クエリで評価されている。
論文 参考訳(メタデータ) (2025-10-03T12:57:13Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers [51.45596445363302]
GlobeReadyはクリニックフレンドリーなAIプラットフォームで、再トレーニング、微調整、技術専門知識の必要性なしに、基礎疾患の診断を可能にする。
光コヒーレンス・トモグラフィー(OCT)スキャンを用いて、カラー・ファンドス写真(CPF)を用いた11のファンドス病(93.9-98.5%)と15のファンドス病(87.2-92.7%)の精度を示した。
トレーニングなしのローカル機能拡張を活用することで、GlobeReadyプラットフォームは、センターや人口間のドメインシフトを効果的に軽減する。
論文 参考訳(メタデータ) (2025-04-22T14:17:22Z) - Accessible, At-Home Detection of Parkinson's Disease via Multi-task Video Analysis [3.1851272788128644]
既存のAIベースのパーキンソン病検出方法は、主にモータや音声タスクの単調な分析に焦点を当てている。
本稿では,このマルチモーダルデータを利用して診断精度を向上させる不確実性校正核融合ネットワーク(UFNet)を提案する。
UFNetは、精度、ORC曲線下(AUROC)の面積、非隣接特異性を維持しながら感度において、シングルタスクモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T04:02:19Z) - Early prediction of onset of sepsis in Clinical Setting [0.8471078314535754]
教師付き学習手法が採用され、列車データセットの80%をXGBoostモデルでトレーニングした。
モデルは、トレーニング期間中に全く見えなかった予測データに基づいて検証された。
このモデルでは、試験データでは0.494点、予測データでは0.378点の正常化ユーティリティスコアが得られた。
論文 参考訳(メタデータ) (2024-02-05T19:58:40Z) - Bridging AI and Clinical Practice: Integrating Automated Sleep Scoring
Algorithm with Uncertainty-Guided Physician Review [0.0]
本研究は,不確実性推定手法を取り入れた自動睡眠検査アルゴリズムの臨床的有用性を高めることを目的とする。
13のオープンアクセスデータベースからの合計19578のPSGを使用して、最先端の睡眠スコアアルゴリズムであるU-Sleepをトレーニングした。
論文 参考訳(メタデータ) (2023-12-22T15:58:09Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Sentiment Analysis of Users' Reviews on COVID-19 Contact Tracing Apps
with a Benchmark Dataset [6.592595861973966]
接触追跡は、新型コロナウイルスの感染率を制御する戦いで世界的に採用されています。
スマートフォンやウェアラブルデバイスなどのデジタル技術のおかげで、COVID-19患者の連絡先を簡単に追跡し、ウイルスへの潜在的な曝露について知らせることができます。
興味深いモバイルアプリケーションもいくつか開発されている。
しかしながら、これらのアプリケーションの動作メカニズムやパフォーマンスに対する懸念はますます高まっている。
本研究では,クラウドソーシングによる手動アノテーションから始めるパイプラインを提案し,ユーザのレビュー自動感情分析のためのaiモデルの開発とトレーニングについて考察する。
論文 参考訳(メタデータ) (2021-03-01T18:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。