論文の概要: Improving Medical Speech-to-Text Accuracy with Vision-Language
Pre-training Model
- arxiv url: http://arxiv.org/abs/2303.00091v1
- Date: Mon, 27 Feb 2023 08:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 16:47:11.704614
- Title: Improving Medical Speech-to-Text Accuracy with Vision-Language
Pre-training Model
- Title(参考訳): ビジョンランゲージ事前学習モデルによる医用音声テキストの精度向上
- Authors: Jaeyoung Huh, Sangjoon Park, Jeong Eun Lee, Jong Chul Ye
- Abstract要約: 音声テキスト(STT)は,音声録音の書き起こしにタイピストに依存する臨床医の作業量を大幅に削減する可能性がある。
一般STTシステムの出力テキストを変更する医療領域テキスト補正法を提案する。
提案手法は,医学領域におけるSTT性能の定量的,臨床的に有意な改善をもたらすことを実証した。
- 参考スコア(独自算出の注目度): 36.9873998348851
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Speech Recognition (ASR) is a technology that converts spoken words
into text, facilitating interaction between humans and machines. One of the
most common applications of ASR is Speech-To-Text (STT) technology, which
simplifies user workflows by transcribing spoken words into text. In the
medical field, STT has the potential to significantly reduce the workload of
clinicians who rely on typists to transcribe their voice recordings. However,
developing an STT model for the medical domain is challenging due to the lack
of sufficient speech and text datasets. To address this issue, we propose a
medical-domain text correction method that modifies the output text of a
general STT system using the Vision Language Pre-training (VLP) method. VLP
combines textual and visual information to correct text based on image
knowledge. Our extensive experiments demonstrate that the proposed method
offers quantitatively and clinically significant improvements in STT
performance in the medical field. We further show that multi-modal
understanding of image and text information outperforms single-modal
understanding using only text information.
- Abstract(参考訳): 音声認識 (Automatic Speech Recognition, ASR) は、音声をテキストに変換する技術であり、人間と機械の相互作用を促進する。
ASRの最も一般的な応用の1つはSpeech-To-Text(STT)技術である。
医療分野では、STTは音声記録の書き起こしにタイピストに依存する臨床医の負担を大幅に削減する可能性がある。
しかし、十分な音声とテキストデータセットが不足しているため、医療領域向けのSTTモデルの開発は困難である。
そこで本研究では,ビジョン言語事前学習(VLP)手法を用いて一般STTシステムの出力テキストを変更する医療領域テキスト補正手法を提案する。
VLPはテキスト情報と視覚情報を組み合わせて、画像知識に基づいてテキストを修正する。
本手法は医学領域におけるSTT性能の定量的,臨床的に有意な改善をもたらすことを示す。
さらに,画像とテキスト情報のマルチモーダル理解は,テキスト情報のみを用いた単一モーダル理解よりも優れていることを示す。
関連論文リスト
- MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - A General Multi-Task Learning Framework to Leverage Text Data for Speech
to Text Tasks [36.216979991706594]
本稿では,自動音声認識(ASR)と音声翻訳(ST)タスクのためのテキストデータを活用する汎用マルチタスク学習フレームワークを提案する。
テキスト入力を音素シーケンスとして表現することで、音声とテキスト入力の差を減らし、テキストコーパスからテキストタスクへの知識伝達を促進できることを示す。
論文 参考訳(メタデータ) (2020-10-21T22:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。