論文の概要: Understanding Medical Conversations: Rich Transcription, Confidence
Scores & Information Extraction
- arxiv url: http://arxiv.org/abs/2104.02219v1
- Date: Tue, 6 Apr 2021 01:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 21:59:57.096349
- Title: Understanding Medical Conversations: Rich Transcription, Confidence
Scores & Information Extraction
- Title(参考訳): 医学的会話を理解する: リッチな転写、信頼スコアと情報抽出
- Authors: Hagen Soltau, Mingqiu Wang, Izhak Shafran, Laurent El Shafey
- Abstract要約: 本稿では,ロングフォームオーディオに適したトランスフォーマーベースリカレントニューラルネットワークトランスデューサ(RNN-T)モデルについて述べる。
本研究では,これらのモデルが実用的応用に十分正確であることを示唆した。
- 参考スコア(独自算出の注目度): 7.12355127219356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe novel components for extracting clinically
relevant information from medical conversations which will be available as
Google APIs. We describe a transformer-based Recurrent Neural Network
Transducer (RNN-T) model tailored for long-form audio, which can produce rich
transcriptions including speaker segmentation, speaker role labeling,
punctuation and capitalization. On a representative test set, we compare
performance of RNN-T models with different encoders, units and streaming
constraints. Our transformer-based streaming model performs at about 20% WER on
the ASR task, 6% WDER on the diarization task, 43% SER on periods, 52% SER on
commas, 43% SER on question marks and 30% SER on capitalization. Our recognizer
is paired with a confidence model that utilizes both acoustic and lexical
features from the recognizer. The model performs at about 0.37 NCE. Finally, we
describe a RNN-T based tagging model. The performance of the model depends on
the ontologies, with F-scores of 0.90 for medications, 0.76 for symptoms, 0.75
for conditions, 0.76 for diagnosis, and 0.61 for treatments. While there is
still room for improvement, our results suggest that these models are
sufficiently accurate for practical applications.
- Abstract(参考訳): 本稿では,Google APIとして利用可能となる医療会話から臨床関連情報を抽出するための新しいコンポーネントについて述べる。
本稿では, 話者分割, 話者ロールラベリング, 句読取, キャピタライゼーションなどのリッチな書き起こしを生成できる, 長文音声に適したトランスフォーマベースリカレントニューラルネットワークトランスデューサ(RNN-T)モデルについて述べる。
代表的なテストセットでは、RNN-Tモデルの性能を異なるエンコーダ、ユニット、ストリーミング制約と比較する。
我々のトランスフォーマーベースのストリーミングモデルは、ASRタスクで約20%のWER、ダイアリゼーションタスクで6%のWDER、期間で43%のSER、コンマで52%のSER、質問マークで43%のSER、資本化で30%のSERを実行する。
認識器の音響的特徴と語彙的特徴の両方を利用する信頼モデルと組み合わせる。
モデルはおよそ0.37 NCEで動作する。
最後に、RNN-Tに基づくタグ付けモデルについて述べる。
モデルの性能はオントロジーによって異なり、f-scores は医薬品 0.90、症状 0.76、症状 0.75、診断 0.76、治療 0.61 である。
改善の余地はまだ残っているが,本研究の結果から,これらのモデルが実用化に十分正確であることが示唆された。
関連論文リスト
- Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - A Few-Shot Approach to Dysarthric Speech Intelligibility Level
Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。
文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。
この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-17T17:23:41Z) - Cross-Shaped Windows Transformer with Self-supervised Pretraining for
Clinically Significant Prostate Cancer Detection in Bi-parametric MRI [4.514671509677161]
前立腺癌 (bpMRI) における臨床的に重要な前立腺癌 (csPCa) を検出するために, CSwin 変圧器 UNet モデル (CSwin 変圧器 UNet モデル) を導入した。
1500人の患者を対象とした大規模前立腺bpMRIデータセットを用いて,マルチタスク自己教師型学習を用いてCSwinトランスフォーマーをトレーニングし,データ効率とネットワークの一般化性を向上させる。
CSwin UNet が 0.888 AUC と 0.545 Average Precision (AP) を達成したことの5倍の検証結果が得られた。
論文 参考訳(メタデータ) (2023-04-30T04:40:32Z) - Vision Transformer for Efficient Chest X-ray and Gastrointestinal Image
Classification [2.3293678240472517]
本研究では,多種多様なCNNとトランスフォーマーを用いたデータ拡張手法を提案する。
異なるモダリティから3つの医用画像データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-04-23T04:07:03Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Self-supervised contrastive learning of echocardiogram videos enables
label-efficient cardiac disease diagnosis [48.64462717254158]
心エコービデオを用いた自己教師型コントラスト学習手法であるエコーCLRを開発した。
左室肥大症 (LVH) と大動脈狭窄症 (AS) の分類成績は,EchoCLR の訓練により有意に改善した。
EchoCLRは、医療ビデオの表現を学習する能力に特有であり、SSLがラベル付きデータセットからラベル効率の高い疾患分類を可能にすることを実証している。
論文 参考訳(メタデータ) (2022-07-23T19:17:26Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - The Medical Scribe: Corpus Development and Model Performance Analyses [19.837396601641117]
そこで我々は,この目標に感化されて,関連する臨床概念を抽出するアノテーションスキームを開発した。
我々はこのアノテーションを用いて約6kの臨床診断結果のコーパスをラベル付けした。
これは最先端のタグ付けモデルのトレーニングに使用された。
論文 参考訳(メタデータ) (2020-03-12T03:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。