論文の概要: Development and multi-center evaluation of domain-adapted speech recognition for human-AI teaming in real-world gastrointestinal endoscopy
- arxiv url: http://arxiv.org/abs/2604.01705v1
- Date: Thu, 02 Apr 2026 07:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.580495
- Title: Development and multi-center evaluation of domain-adapted speech recognition for human-AI teaming in real-world gastrointestinal endoscopy
- Title(参考訳): 実世界の消化管内視鏡におけるヒト-AI連携のためのドメイン適応音声認識の開発とマルチセンター評価
- Authors: Ruijie Yang, Yan Zhu, Peiyao Fu, Te Luo, Zhihua Wang, Xian Yang, Quanlin Li, Pinghong Zhou, Shuo Wang,
- Abstract要約: 本稿では,ドメイン適応型ASRシステムであるEndoASRについて述べる。
内科医6名を対象とした振り返り評価では、EndoASRは転写精度と臨床使用性の両方を大幅に改善する。
将来的な多中心研究において、EndoASRは異種実世界の条件下で一貫した一般化を示す。
- 参考スコア(独自算出の注目度): 10.190034803243288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) is a critical interface for human-AI interaction in gastrointestinal endoscopy, yet its reliability in real-world clinical settings is limited by domain-specific terminology and complex acoustic conditions. Here, we present EndoASR, a domain-adapted ASR system designed for real-time deployment in endoscopic workflows. We develop a two-stage adaptation strategy based on synthetic endoscopy reports, targeting domain-specific language modeling and noise robustness. In retrospective evaluation across six endoscopists, EndoASR substantially improves both transcription accuracy and clinical usability, reducing character error rate (CER) from 20.52% to 14.14% and increasing medical term accuracy (Med ACC) from 54.30% to 87.59%. In a prospective multi-center study spanning five independent endoscopy centers, EndoASR demonstrates consistent generalization under heterogeneous real-world conditions. Compared with the baseline Paraformer model, CER is reduced from 16.20% to 14.97%, while Med ACC is improved from 61.63% to 84.16%, confirming its robustness in practical deployment scenarios. Notably, EndoASR achieves a real-time factor (RTF) of 0.005, significantly faster than Whisper-large-v3 (RTF 0.055), while maintaining a compact model size of 220M parameters, enabling efficient edge deployment. Furthermore, integration with large language models demonstrates that improved ASR quality directly enhances downstream structured information extraction and clinician-AI interaction. These results demonstrate that domain-adapted ASR can serve as a reliable interface for human-AI teaming in gastrointestinal endoscopy, with consistent performance validated across multi-center real-world clinical settings.
- Abstract(参考訳): 自動音声認識(ASR)は消化管内視鏡におけるヒトとAIの相互作用において重要なインタフェースであるが、実際の臨床環境での信頼性はドメイン固有の用語や複雑な音響条件によって制限される。
本稿では,内視鏡ワークフローのリアルタイム展開を目的としたドメイン適応型ASRシステムであるEndoASRを紹介する。
本研究では,ドメイン固有言語モデリングと雑音頑健性をターゲットとした,合成内視鏡レポートに基づく2段階適応戦略を開発する。
6人の内科医の振り返り評価において、EndoASRは転写精度と臨床使用性の両方を大幅に改善し、文字誤り率(CER)を20.52%から14.14%に下げ、医学用語の精度(Med ACC)を54.30%から87.59%に引き上げた。
5つの独立した内視鏡中心にまたがる先進的な多中心研究において、EndoASRは異質な実世界の条件下で一貫した一般化を示す。
ベースラインのParaformerモデルと比較して、CERは16.20%から14.97%に削減され、Med ACCは61.63%から84.16%に改善された。
特に、EndoASRは、Whisper-large-v3 (RTF 0.055)よりもはるかに高速な0.005のリアルタイム係数(RTF)を達成し、220Mパラメータのコンパクトなモデルサイズを維持し、効率的なエッジデプロイメントを実現する。
さらに、大規模言語モデルとの統合により、ASRの品質向上が下流構造情報抽出と臨床とAIの相互作用を直接的に促進することを示す。
これらの結果から,領域適応型ASRは消化管内視鏡検査におけるヒト-AI共同作業の信頼性の高いインターフェースとして機能し,多施設臨床環境における一貫した評価が可能であることが示唆された。
関連論文リスト
- Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging [55.62977326180104]
前立腺癌病変の分節化に対する近年の深層学習アプローチは,限られた性能を達成している。
本稿では,標準拡散型プロトコルの拡張として,合成相関拡散イメージング(CDI$s$)について検討する。
以上の結果から,PCa病変セグメント化タスクの実践的ドロップイン強化として,CDI$s$に対する検証済み統合経路が確立された。
論文 参考訳(メタデータ) (2025-11-11T04:16:12Z) - Longitudinal Vestibular Schwannoma Dataset with Consensus-based Human-in-the-loop Annotations [3.1898695141875772]
このデータセットには,184例のT1強調検査(T1CE)534例と6例の非アノテーションT2強調検査(T2強調検査)190例が含まれている。
提案手法は,自動セグメンテーションモデルの目的とするデータ分布への効率的かつ資源効率の高い一般化を可能にする。
従来の手作業による注釈処理と比較して、効率を約37.4%向上させると見積もられている。
論文 参考訳(メタデータ) (2025-11-01T09:53:28Z) - LGE-Guided Cross-Modality Contrastive Learning for Gadolinium-Free Cardiomyopathy Screening in Cine CMR [51.11296719862485]
CMRを用いたガドリニウムフリー心筋症スクリーニングのためのコントラシブラーニングおよびクロスモーダルアライメントフレームワークを提案する。
CMRとLate Gadolinium Enhancement (LGE) 配列の潜伏空間を整列させることにより, 本モデルでは線維症特異的な病理組織をCMR埋め込みにエンコードする。
論文 参考訳(メタデータ) (2025-08-23T07:21:23Z) - Agentic large language models improve retrieval-based radiology question answering [4.208637377704778]
Radiology Retrieval and Reasoning (RaR)は、放射線学的質問応答のための多段階の検索および推論フレームワークである。
RaRはゼロショットプロンプトや従来のオンラインRAGよりも平均診断精度が有意に向上した。
RaRの検索は幻覚を減少させ(平均9.4%)、臨床的に関連のあるコンテキストを46%の症例で検索した。
論文 参考訳(メタデータ) (2025-08-01T16:18:52Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - High-precision medical speech recognition through synthetic data and semantic correction: UNITED-MEDASR [1.3810901729134184]
合成データ生成,高精度ASR微調整,セマンティックエンハンスメント技術を統合することで,課題に対処する新しいアーキテクチャであるUnited-MedASRを紹介する。
United-MedASRは、ICD-10、MIMS、FDAデータベースなどの権威ソースからデータを合成することによって、専門化された医療用語を構築する。
処理速度を向上させるために、高速なWhisperを導入し、合理化および高速ASR性能を確保する。
論文 参考訳(メタデータ) (2024-11-24T17:02:48Z) - Interactive 3D Segmentation for Primary Gross Tumor Volume in Oropharyngeal Cancer [1.9997842016096374]
我々は最先端のアルゴリズムを実装し、新しい2段階のインタラクティブ・クリック・リファインメント・フレームワークを提案する。
2S-ICRフレームワークは、ユーザインタラクションのないDiceの類似係数0.713$pm$0.152と、5つのインタラクション後の0.824$pm$0.099を達成し、どちらの場合も既存の手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-10T15:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。