論文の概要: From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation
- arxiv url: http://arxiv.org/abs/2604.14152v1
- Date: Mon, 02 Mar 2026 13:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.677631
- Title: From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation
- Title(参考訳): Black BoxからGlass Boxへ:ASRのクロスモデル診断からPriotoレビューへ
- Authors: Abdolamir Karbalaie, Fernando Seoane, Farhad Abtahi,
- Abstract要約: 異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。
商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。
低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
- 参考スコア(独自算出の注目度): 43.148402136307716
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ambient AI "scribe" systems promise to reduce clinical documentation burden, but automatic speech recognition (ASR) errors can remain unnoticed without careful review, and high-quality human reference transcripts are often unavailable for calibrating uncertainty. We investigate whether cross-model disagreement among heterogeneous ASR systems can act as a reference-free uncertainty signal to prioritize human verification in medical transcription workflows. Using 50 publicly available medical education audio clips (8 h 14 min), we transcribed each clip with eight ASR systems spanning commercial APIs and open-source engines. We aligned multi-model outputs, built consensus pseudo-references, and quantified token-level agreement using a majority-strength metric; we further characterized disagreements by type (content vs. punctuation/formatting) and assessed per-model agreement via leave-one-model-out (jackknife) consensus scoring. Inter-model reliability was low (ICC[2,1] = 0.131), indicating heterogeneous failure modes across systems. Across 76,398 evaluated token positions, 72.1% showed near-unanimous agreement (7-8 models), while 2.5% fell into high-risk bands (0-3 models), with high-risk mass varying from 0.7% to 11.4% across accent groups. Low-agreement regions were enriched for content disagreements, with the content fraction increasing from 53.9% to 73.9% across quintiles of high-risk mass. These results suggest that cross-model disagreement provides a sparse, localizable signal that can surface potentially unreliable transcript spans without human-verified references, enabling targeted review; clinical accuracy of flagged regions remains to be established.
- Abstract(参考訳): アンビエントAIは、臨床ドキュメントの負担を軽減することを約束するが、自動音声認識(ASR)エラーは、慎重にレビューすることなく認識でき、高品質な人間の参照書き起こしは、不確実性を校正するためにしばしば利用できない。
本研究では、異種ASRシステム間の相互モデル不一致が基準のない不確実性信号として機能し、医療転写ワークフローにおける人間の検証を優先するかどうかを検討する。
利用可能な50の医療教育用オーディオクリップ(8時間14分)を使用して、商用APIとオープンソースエンジンにまたがる8つのASRシステムで、各クリップを転写した。
我々は、マルチモデル出力、コンセンサス・擬似参照の構築、およびマジョリティ・コンセンサス・メトリクスを用いたトークンレベル・コンセンサスの定量化を行い、さらに、タイプ(コンテント対句読解/フォーマッティング)による不一致を特徴付けるとともに、Left-one-model-out (jackknife)コンセンサス・スコアリングによるモデル毎のコンセンサスの評価を行った。
モデル間信頼性は低い(ICC[2,1] = 0.131)。
76,398人中72.1%がほぼ一様一致(7-8モデル)を示し、2.5%がハイリスク帯(0-3モデル)となり、ハイリスク質量はアクセント群で0.7%から11.4%に変化した。
低アグリメント領域は内容の不一致のために豊かにされ、高リスク質量のキニチン類では53.9%から73.9%に増加した。
これらの結果から, クロスモデル不一致は, 人為的基準を満たさずに, 潜在的に信頼性の低い転写スパンを表面化し, 標的レビューが可能であり, フラグ付き領域の臨床的精度は確立されていないことが示唆された。
関連論文リスト
- Are we still able to recognize pearls? Machine-driven peer review and the risk to creativity: An explainable RAG-XAI detection framework with markers extraction [7.723181091241251]
本稿では、レビュー品質を評価し、自動パターンを検出するための説明可能なフレームワーク(RAG-XAI)を提案する。
XGBoost、Random Forest、LightGBMは99.61%、AUC-ROCは0.999以上、F1スコアは0.9925である。
論文 参考訳(メタデータ) (2026-04-09T08:25:49Z) - Negation is Not Semantic: Diagnosing Dense Retrieval Failure Modes for Trade-offs in Contradiction-Aware Biomedical QA [1.0330395403064265]
大言語モデル (LLMs) は質問応答において強い能力を示してきたが、検証不可能なクレームを生成する傾向は、臨床環境において重大なリスクをもたらす。
これらのリスクを軽減するため、TREC 2025 BioGenトラックは、矛盾する証拠を明示的に提示する根拠のついた回答を義務付けている。
本稿では、SciFactデータセットを用いて、検索アーキテクチャを体系的に最適化するプロキシベースの開発フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-18T10:35:44Z) - Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering [1.295312759062166]
エージェント検索強化推論パイプラインは、より大きな言語モデルが臨床決定支援に外部証拠を組み込むかを構築するために、ますます使用されている。
これらのシステムは、計算済みのドメイン知識を反復的に検索し、回答の選択の前に構造化されたレポートに合成する。
このようなパイプラインはパフォーマンスを向上させることができるが、モデルの可変性の下での信頼性への影響は、まだ不明である。
論文 参考訳(メタデータ) (2026-03-06T13:31:54Z) - Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems [19.880569341968023]
大規模言語モデル(LLM)は、幻覚や安全でない提案が患者の安全に直接的なリスクをもたらすという、臨床的な意思決定支援にますます利用されている。
本稿では,インスタンス固有の評価ルーリックの自動生成を目的とした検索拡張型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T16:40:41Z) - ORCA: Open-ended Response Correctness Assessment for Audio Question Answering [41.72231074041232]
本研究では,予測精度と不確実性の両方を予測するために,ベータ分布を用いた人的判断の変動をモデル化するフレームワークORCAを提案する。
我々は15のLALMから11,721のアノテーションを収集し,0.82(クリッペンドルフのα)のアノテータ間契約を達成した。
論文 参考訳(メタデータ) (2025-11-28T14:41:48Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z) - Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment [37.40606157690235]
言語と言語の変化は、アルツハイマー病と関連する認知症を早期に予測できる。
音声言語からのADRDスクリーニングと重度予測のための機械学習手法の評価を行った。
リスク階層化と言語的特徴重要度分析は、予測の解釈可能性と臨床的有用性を高めた。
論文 参考訳(メタデータ) (2025-01-30T20:17:17Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。