Fugu-MT 論文翻訳(概要): Understanding Medical Conversations: Rich Transcription, Confidence Scores & Information Extraction

論文の概要: Understanding Medical Conversations: Rich Transcription, Confidence Scores & Information Extraction

arxiv url: http://arxiv.org/abs/2104.02219v1
Date: Tue, 6 Apr 2021 01:16:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-07 21:59:57.096349
Title: Understanding Medical Conversations: Rich Transcription, Confidence Scores & Information Extraction
Title（参考訳）: 医学的会話を理解する: リッチな転写、信頼スコアと情報抽出
Authors: Hagen Soltau, Mingqiu Wang, Izhak Shafran, Laurent El Shafey
Abstract要約: 本稿では,ロングフォームオーディオに適したトランスフォーマーベースリカレントニューラルネットワークトランスデューサ(RNN-T)モデルについて述べる。本研究では,これらのモデルが実用的応用に十分正確であることを示唆した。
参考スコア（独自算出の注目度）: 7.12355127219356
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we describe novel components for extracting clinically relevant information from medical conversations which will be available as Google APIs. We describe a transformer-based Recurrent Neural Network Transducer (RNN-T) model tailored for long-form audio, which can produce rich transcriptions including speaker segmentation, speaker role labeling, punctuation and capitalization. On a representative test set, we compare performance of RNN-T models with different encoders, units and streaming constraints. Our transformer-based streaming model performs at about 20% WER on the ASR task, 6% WDER on the diarization task, 43% SER on periods, 52% SER on commas, 43% SER on question marks and 30% SER on capitalization. Our recognizer is paired with a confidence model that utilizes both acoustic and lexical features from the recognizer. The model performs at about 0.37 NCE. Finally, we describe a RNN-T based tagging model. The performance of the model depends on the ontologies, with F-scores of 0.90 for medications, 0.76 for symptoms, 0.75 for conditions, 0.76 for diagnosis, and 0.61 for treatments. While there is still room for improvement, our results suggest that these models are sufficiently accurate for practical applications.
Abstract（参考訳）: 本稿では,Google APIとして利用可能となる医療会話から臨床関連情報を抽出するための新しいコンポーネントについて述べる。本稿では, 話者分割, 話者ロールラベリング, 句読取, キャピタライゼーションなどのリッチな書き起こしを生成できる, 長文音声に適したトランスフォーマベースリカレントニューラルネットワークトランスデューサ(RNN-T)モデルについて述べる。代表的なテストセットでは、RNN-Tモデルの性能を異なるエンコーダ、ユニット、ストリーミング制約と比較する。我々のトランスフォーマーベースのストリーミングモデルは、ASRタスクで約20%のWER、ダイアリゼーションタスクで6%のWDER、期間で43%のSER、コンマで52%のSER、質問マークで43%のSER、資本化で30%のSERを実行する。認識器の音響的特徴と語彙的特徴の両方を利用する信頼モデルと組み合わせる。モデルはおよそ0.37 NCEで動作する。最後に、RNN-Tに基づくタグ付けモデルについて述べる。モデルの性能はオントロジーによって異なり、f-scores は医薬品 0.90、症状 0.76、症状 0.75、診断 0.76、治療 0.61 である。改善の余地はまだ残っているが,本研究の結果から,これらのモデルが実用化に十分正確であることが示唆された。

関連論文リスト

Explainable Anatomy-Guided AI for Prostate MRI: Foundation Models and In Silico Clinical Trials for Virtual Biopsy-based Risk Assessment [3.5408411348831232]
MRIによる前立腺癌(PCa)のリスク階層化のための,完全に自動化された,解剖学的に指導されたディープラーニングパイプラインを提案する。パイプラインは、前立腺とそのゾーンを軸方向のT2強調MRI上にセグメント化するためのnnU-Netモジュール、オプションの解剖学的先行と臨床データで3Dパッチに微調整されたDiceedPT Swin Transformer基盤モデルに基づく分類モジュール、決定駆動画像領域をローカライズする反ファクトなヒートマップを生成するVAE-GANフレームワークの3つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2025-05-23T14:40:09Z)
Towards Interpretable Radiology Report Generation via Concept Bottlenecks using a Multi-Agentic RAG [1.9374282535132377]
本研究では, レポート生成のための概念ボトルネックモデル(CBM)とマルチエージェント検索・拡張生成システム(RAG)を用いて, 胸部X線分類(CXR)の解釈可能性を向上させる。視覚特徴と臨床概念の関係をモデル化することにより,多エージェントRAGシステムで放射線診断レポートを生成するための解釈可能な概念ベクトルを作成する。
論文参考訳（メタデータ） (2024-12-20T17:33:50Z)
Denoising Variational Autoencoder as a Feature Reduction Pipeline for the diagnosis of Autism based on Resting-state fMRI [11.871709357017416]
自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、発達過程において、制限された関心とコミュニケーションの困難を特徴とする疾患である。静止状態fMRI(rs-fMRI)を用いたASD特徴量削減パイプラインを提案する。我々はNcutsのパーセレーションとPower atlasを使って機能的な接続データを抽出し、3万以上の機能を実現した。
論文参考訳（メタデータ） (2024-09-30T09:38:47Z)
Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文参考訳（メタデータ） (2024-09-29T07:04:26Z)
A Few-Shot Approach to Dysarthric Speech Intelligibility Level Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文参考訳（メタデータ） (2023-09-17T17:23:41Z)
Cross-Shaped Windows Transformer with Self-supervised Pretraining for Clinically Significant Prostate Cancer Detection in Bi-parametric MRI [6.930082824262643]
前立腺癌 (bpMRI) における臨床的に重要な前立腺癌 (csPCa) を検出するために, CSwin 変圧器 UNet モデル (CSwin 変圧器 UNet モデル) を導入した。 1500人の患者を対象とした大規模前立腺bpMRIデータセットを用いて、まずマルチタスク自己教師型学習を用いてCSwin変換器を事前訓練し、データ効率とネットワークの一般化性を向上させる。 5倍のクロスバリデーションは、自己教師型CSwin UNetが0.888 AUCと0.545 Average Precision(AP)を達成し、4つの同等モデル(Swin U)を著しく上回っていることを示している。
論文参考訳（メタデータ） (2023-04-30T04:40:32Z)
Vision Transformer for Efficient Chest X-ray and Gastrointestinal Image Classification [2.3293678240472517]
本研究では,多種多様なCNNとトランスフォーマーを用いたデータ拡張手法を提案する。異なるモダリティから3つの医用画像データセットを用いて評価を行った。
論文参考訳（メタデータ） (2023-04-23T04:07:03Z)
Attention-based Saliency Maps Improve Interpretability of Pneumothorax Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。 ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。 ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文参考訳（メタデータ） (2023-03-03T12:05:41Z)
ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。 Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文参考訳（メタデータ） (2023-03-02T22:36:19Z)
Self-supervised contrastive learning of echocardiogram videos enables label-efficient cardiac disease diagnosis [48.64462717254158]
心エコービデオを用いた自己教師型コントラスト学習手法であるエコーCLRを開発した。左室肥大症 (LVH) と大動脈狭窄症 (AS) の分類成績は,EchoCLR の訓練により有意に改善した。 EchoCLRは、医療ビデオの表現を学習する能力に特有であり、SSLがラベル付きデータセットからラベル効率の高い疾患分類を可能にすることを実証している。
論文参考訳（メタデータ） (2022-07-23T19:17:26Z)
A self-supervised learning strategy for postoperative brain cavity segmentation simulating resections [46.414990784180546]
畳み込みニューラルネットワーク(CNN)は最先端の画像セグメンテーション技術である。 CNNはトレーニングに大量の注釈付きデータセットを必要とする。自己教師型学習戦略は、トレーニングにラベルのないデータを活用することができる。
論文参考訳（メタデータ） (2021-05-24T12:27:06Z)
Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。音声認識のための畳み込み拡張変換器,Conformerを提案する。広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文参考訳（メタデータ） (2020-05-16T20:56:25Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。