論文の概要: PoCaP Corpus: A Multimodal Dataset for Smart Operating Room Speech
Assistant using Interventional Radiology Workflow Analysis
- arxiv url: http://arxiv.org/abs/2206.12320v1
- Date: Fri, 24 Jun 2022 14:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 17:36:44.438485
- Title: PoCaP Corpus: A Multimodal Dataset for Smart Operating Room Speech
Assistant using Interventional Radiology Workflow Analysis
- Title(参考訳): PoCaP Corpus:インターベンショナルラジオロジーワークフロー分析を用いたスマートオペレーティングルーム音声アシスタント用マルチモーダルデータセット
- Authors: Kubilay Can Demir, Matthias May, Axel Schmid, Michael Uder, Katharina
Breininger, Tobias Weise, Andreas Maier, Seung Hee Yang
- Abstract要約: 本稿では,PoCaP (Port Catheter Placement) Corpus と呼ばれる多モード干渉ラジオロジーデータセットを提案する。
このコーパスは、ドイツ語の音声と音声の信号、X線画像、および6人の外科医による31のPoCaPの介入から収集されたシステムコマンドで構成されている。
- 参考スコア(独自算出の注目度): 7.189635716814341
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper presents a new multimodal interventional radiology dataset, called
PoCaP (Port Catheter Placement) Corpus. This corpus consists of speech and
audio signals in German, X-ray images, and system commands collected from 31
PoCaP interventions by six surgeons with average duration of 81.4 $\pm$ 41.0
minutes. The corpus aims to provide a resource for developing a smart speech
assistant in operating rooms. In particular, it may be used to develop a speech
controlled system that enables surgeons to control the operation parameters
such as C-arm movements and table positions. In order to record the dataset, we
acquired consent by the institutional review board and workers council in the
University Hospital Erlangen and by the patients for data privacy. We describe
the recording set-up, data structure, workflow and preprocessing steps, and
report the first PoCaP Corpus speech recognition analysis results with 11.52
$\%$ word error rate using pretrained models. The findings suggest that the
data has the potential to build a robust command recognition system and will
allow the development of a novel intervention support systems using speech and
image processing in the medical domain.
- Abstract(参考訳): 本稿では,PoCaP (Port Catheter Placement) Corpusと呼ばれる多モード干渉ラジオロジーデータセットを提案する。
このコーパスは、ドイツ語、X線画像、および、平均81.4$\pm$41.0分である6人の外科医による31人のPoCaP介入から収集されたシステムコマンドからなる。
コーパスは、手術室でスマート音声アシスタントを開発するためのリソースを提供することを目的としている。
特に、外科医がC腕の動きやテーブル位置などの操作パラメータを制御できる音声制御システムの開発に使用することができる。
このデータセットを記録するために,erlangen大学病院の機関審査委員会と労働者協議会,および患者によるデータプライバシの承認を得た。
記録セット,データ構造,ワークフロー,前処理ステップについて記述し,事前学習モデルを用いて,最初のPoCaP Corpus音声認識解析結果を11.52$\%のワード誤り率で報告する。
以上の結果から,このデータはロバストなコマンド認識システムを構築する可能性があり,医療領域における音声および画像処理を用いた新たな介入支援システムの開発が可能であることが示唆された。
関連論文リスト
- A Data-Driven Guided Decoding Mechanism for Diagnostic Captioning [11.817595076396925]
診断用キャプション(DC)は、患者の1つ以上の医療画像から診断用テキストを自動的に生成する。
本稿では,診断テキスト生成プロセスのビームサーチに医療情報を組み込んだデータ駆動型ガイドデコーディング手法を提案する。
提案手法は,CNNエンコーダを用いた汎用画像-テキストシステムから,事前学習された大規模言語モデルまで,4つのDCシステムを用いて2つの医療データセット上で評価する。
論文 参考訳(メタデータ) (2024-06-20T10:08:17Z) - Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design [58.50329724298128]
本稿では, 現実的な応用を目指して, 難聴者のための覚醒語スポッティング(WWS)タスクについて述べる。
我々は,家庭環境における変形性個人を対象としたデータセットであるMandarin Dysarthria Speech Corpus (MDSC) をオープンソースとしてリリースした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示すカスタマイズ型変形性WWSシステムの開発を行った。
論文 参考訳(メタデータ) (2024-06-14T03:06:55Z) - RaDialog: A Large Vision-Language Model for Radiology Report Generation
and Conversational Assistance [53.20640629352422]
会話型AIツールは、所定の医療画像に対して臨床的に正しい放射線学レポートを生成し、議論することができる。
RaDialogは、ラジオロジーレポート生成と対話ダイアログのための、初めて徹底的に評価され、公開された大きな視覚言語モデルである。
本手法は,報告生成における最先端の臨床的正確性を実現し,報告の修正や質問への回答などのインタラクティブなタスクにおいて,印象的な能力を示す。
論文 参考訳(メタデータ) (2023-11-30T16:28:40Z) - Summarizing Patients Problems from Hospital Progress Notes Using
Pre-trained Sequence-to-Sequence Models [9.879960506853145]
問題リストの要約には、臨床文書を理解し、抽象化し、生成するモデルが必要である。
当科では,入院時に提供者の進捗記録からの入力を用いて,患者の日常診療計画における問題点のリストを作成することを目的とした,新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2022-08-17T17:07:35Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - EasyCall corpus: a dysarthric speech dataset [4.6760299097922715]
本稿では,イタリア語の音声コマンドデータセットであるeasycall corpusを提案する。
このデータセットは24名の健常者および31名の発話者による21386の音声記録で構成されており、個々の音声障害度は神経学者によって評価された。
このコーパスは、不整脈患者のためのASRベースの補助技術の開発のためのリソースを提供することを目指しています。
論文 参考訳(メタデータ) (2021-04-06T14:32:47Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z) - Transforming unstructured voice and text data into insight for paramedic
emergency service using recurrent and convolutional neural networks [68.8204255655161]
救急隊員は救急車内で限られた時間内に救命判断をしなければならないことが多い。
本研究の目的は、音声とテキストデータを自動的に融合して、救急隊員に適切な状況認識情報を提供することである。
論文 参考訳(メタデータ) (2020-05-30T06:47:02Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。