論文の概要: Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in
the HYKIST Project
- arxiv url: http://arxiv.org/abs/2309.15869v1
- Date: Tue, 26 Sep 2023 21:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:27:43.648532
- Title: Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in
the HYKIST Project
- Title(参考訳): HYKISTプロジェクトにおけるベトナム語自動音声認識のための教師なし事前学習
- Authors: Khai Le-Duc
- Abstract要約: 先住民と移民の間の言語上の困難は、特に医学領域において、日常的に共通の問題となる。
HYKISTプロジェクトの目的は、ASRとMTとの患者と医師のコミュニケーションを支援する音声翻訳システムを開発することである。
ベトナム語医学領域における会話音声認識タスクのためのASRシステムの構築について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In today's interconnected globe, moving abroad is more and more prevalent,
whether it's for employment, refugee resettlement, or other causes. Language
difficulties between natives and immigrants present a common issue on a daily
basis, especially in medical domain. This can make it difficult for patients
and doctors to communicate during anamnesis or in the emergency room, which
compromises patient care. The goal of the HYKIST Project is to develop a speech
translation system to support patient-doctor communication with ASR and MT.
ASR systems have recently displayed astounding performance on particular
tasks for which enough quantities of training data are available, such as
LibriSpeech. Building a good model is still difficult due to a variety of
speaking styles, acoustic and recording settings, and a lack of in-domain
training data. In this thesis, we describe our efforts to construct ASR systems
for a conversational telephone speech recognition task in the medical domain
for Vietnamese language to assist emergency room contact between doctors and
patients across linguistic barriers. In order to enhance the system's
performance, we investigate various training schedules and data combining
strategies. We also examine how best to make use of the little data that is
available. The use of publicly accessible models like XLSR-53 is compared to
the use of customized pre-trained models, and both supervised and unsupervised
approaches are utilized using wav2vec 2.0 as architecture.
- Abstract(参考訳): 今日の相互接続された世界では、海外への移動はますます広まり、雇用、難民のリセット、その他の原因がある。
先住民と移民の間の言語上の困難は、特に医学領域において、日常的に共通の問題となる。
これにより、患者や医師が麻酔中や救急室でコミュニケーションが困難になり、患者のケアが損なわれる可能性がある。
HYKISTプロジェクトの目的は、ASRとMTとの患者と医師のコミュニケーションを支援する音声翻訳システムを開発することである。ASRシステムは、最近、LibriSpeechのような十分な量のトレーニングデータが利用できる特定のタスクにおいて、驚くべきパフォーマンスを示した。
優れたモデルの構築は、さまざまなスピーキングスタイル、音響と録音の設定、ドメイン内トレーニングデータの欠如などによって、依然として困難である。
本稿では,ベトナム語医療領域における会話型電話音声認識タスクのためのasrシステムを構築し,医師と患者との緊急連絡を言語障壁を越えて支援する試みについて述べる。
システムの性能を向上させるために,様々なトレーニングスケジュールとデータ統合戦略を検討する。
また、利用可能な小さなデータをどのように活用するかについても検討する。
xlsr-53のようなパブリックアクセスモデルの使用は、カスタマイズ済みの事前学習モデルと比較され、教師なしと教師なしの両方のアプローチはwav2vec 2.0をアーキテクチャとして利用する。
関連論文リスト
- Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design [58.50329724298128]
本稿では, 現実的な応用を目指して, 難聴者のための覚醒語スポッティング(WWS)タスクについて述べる。
我々は,家庭環境における変形性個人を対象としたデータセットであるMandarin Dysarthria Speech Corpus (MDSC) をオープンソースとしてリリースした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示すカスタマイズ型変形性WWSシステムの開発を行った。
論文 参考訳(メタデータ) (2024-06-14T03:06:55Z) - Voice EHR: Introducing Multimodal Audio Data for Health [3.876405146656873]
本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。
このアプリケーションは最終的に、従来の音声/呼吸機能、音声パターン、意味のある言語から健康の複雑なバイオマーカーを含む音声電子健康記録(ボイスEHR)をもたらす。
論文 参考訳(メタデータ) (2024-04-02T04:07:22Z) - Development of Hybrid ASR Systems for Low Resource Medical Domain
Conversational Telephone Speech [33.170046744835595]
HYKISTプロジェクトにおいて,ドイツ語を話す医師とアラビア語またはベトナム語を話す患者とのコミュニケーションについて検討した。
HYKISTの目的は、通常非専門のバイリンガルインタプリタを自動音声翻訳システムでサポートし、患者のケアを改善し、言語障壁を克服することである。
本研究では,2つの言語対,データ収集,各種音響モデルアーキテクチャ,方言による難易度について,この会話音声翻訳タスクのためのASRシステム開発作業について述べる。
論文 参考訳(メタデータ) (2022-10-24T16:49:19Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Clinical Dialogue Transcription Error Correction using Seq2Seq Models [1.663938381339885]
臨床対話におけるASR転写誤り訂正のためのSeq2seq学習手法を提案する。
我々は、将来の研究のために公開してきたドメイン固有のデータセットを使用して、マスク満載タスクにSeq2seqモデルを微調整する。
論文 参考訳(メタデータ) (2022-05-26T18:27:17Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - Self-Supervised Knowledge Assimilation for Expert-Layman Text Style
Transfer [63.72621204057025]
エキスパート・レイマン・テキスト・スタイル・トランスファー技術は、科学コミュニティと一般大衆とのコミュニケーションを改善する可能性がある。
専門家が生み出す高品質な情報は、しばしば難しいジャーゴンの平民が理解するのに苦労している。
これは医療分野において特に顕著な問題であり、レイマンはしばしばオンラインの医療テキストに混同される。
論文 参考訳(メタデータ) (2021-10-06T17:57:22Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Transforming unstructured voice and text data into insight for paramedic
emergency service using recurrent and convolutional neural networks [68.8204255655161]
救急隊員は救急車内で限られた時間内に救命判断をしなければならないことが多い。
本研究の目的は、音声とテキストデータを自動的に融合して、救急隊員に適切な状況認識情報を提供することである。
論文 参考訳(メタデータ) (2020-05-30T06:47:02Z) - MultiQT: Multimodal Learning for Real-Time Question Tracking in Speech [4.384576489684272]
本稿では,音声中のリアルタイムシーケンスラベリングに対する新しいアプローチを提案する。
本モデルでは、音声とそれ自身のテキスト表現を2つの異なるモダリティまたはビューとして扱う。
テキストや音声のみと比較して,2つのモードから共同学習を行うことで大きな効果が得られた。
論文 参考訳(メタデータ) (2020-05-02T12:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。