論文の概要: End-to-end Speech-to-Punctuated-Text Recognition
- arxiv url: http://arxiv.org/abs/2207.03169v1
- Date: Thu, 7 Jul 2022 08:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 15:07:14.772386
- Title: End-to-end Speech-to-Punctuated-Text Recognition
- Title(参考訳): エンドツーエンド音声認識
- Authors: Jumon Nozaki, Tatsuya Kawahara, Kenkichi Ishizuka, Taiichi Hashimoto
- Abstract要約: 句読点は、音声認識結果の可読性にとって重要である。
従来の自動音声認識システムは句読点を生成しない。
本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
- 参考スコア(独自算出の注目度): 23.44236710364419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional automatic speech recognition systems do not produce punctuation
marks which are important for the readability of the speech recognition
results. They are also needed for subsequent natural language processing tasks
such as machine translation. There have been a lot of works on punctuation
prediction models that insert punctuation marks into speech recognition results
as post-processing. However, these studies do not utilize acoustic information
for punctuation prediction and are directly affected by speech recognition
errors. In this study, we propose an end-to-end model that takes speech as
input and outputs punctuated texts. This model is expected to predict
punctuation robustly against speech recognition errors while using acoustic
information. We also propose to incorporate an auxiliary loss to train the
model using the output of the intermediate layer and unpunctuated texts.
Through experiments, we compare the performance of the proposed model to that
of a cascaded system. The proposed model achieves higher punctuation prediction
accuracy than the cascaded system without sacrificing the speech recognition
error rate. It is also demonstrated that the multi-task learning using the
intermediate output against the unpunctuated text is effective. Moreover, the
proposed model has only about 1/7th of the parameters compared to the cascaded
system.
- Abstract(参考訳): 従来の自動音声認識システムは,音声認識結果の可読性に重要な句読点を生成しない。
また、機械翻訳のようなその後の自然言語処理タスクにも必要である。
句読点を後処理として音声認識結果に挿入する句読点予測モデルには多くの研究がなされている。
しかし,これらの研究は句読点予測に音響情報を使用しず,音声認識誤差の影響を直接受けている。
本研究では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
このモデルは,音響情報を用いて,音声認識誤りに対する句読解を頑健に予測することが期待される。
また、中間層と不動テキストの出力を用いてモデルを訓練するために補助損失を導入することを提案する。
実験により,提案モデルの性能とカスケードシステムの性能を比較した。
提案モデルは,音声認識誤り率を犠牲にすることなく,カスケードシステムよりも高い句読点予測精度を実現する。
また,未定テキストに対する中間出力を用いたマルチタスク学習が有効であることを示す。
さらに,提案モデルはカスケードシステムと比較してパラメータの約1/7しか持たない。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Careful Whisper -- leveraging advances in automatic speech recognition
for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。
Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。
そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文 参考訳(メタデータ) (2023-08-02T15:53:59Z) - Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation [0.08602553195689511]
本研究では,コネクショニスト時間分類(CTC)の損失を学習したチャンクベースのトランスフォーマーエンコーダを用いて,入力音声から句読影テキストを予測する手法を提案する。
チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
論文 参考訳(メタデータ) (2023-06-02T06:46:14Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - Token-Level Supervised Contrastive Learning for Punctuation Restoration [7.9713449581347104]
句読解は自然言語の文章を理解するのに重要である。
ほとんどの自動音声認識システムは句読点を生成しない。
句読点修復における最近の研究は、事前訓練された言語モデルを大いに活用している。
論文 参考訳(メタデータ) (2021-07-19T18:24:33Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - End to End ASR System with Automatic Punctuation Insertion [0.0]
本稿では,TED.com から入手可能な transcript を用いて TEDLium データセットの句読点書き起こしを生成する手法を提案する。
また,音声信号から単語と句を同時に出力するエンドツーエンドのASRシステムを提案する。
論文 参考訳(メタデータ) (2020-12-03T15:46:43Z) - Replacing Human Audio with Synthetic Audio for On-device Unspoken
Punctuation Prediction [10.516452073178511]
本稿では,音響的特徴とテキスト的特徴を組み合わせた,英語のマルチモーダル・アンスポークな句読解予測システムを提案する。
本研究では,韻律を意識したテキスト音声合成システムを用いて生成した合成データにのみ依存することで,未知の句読点予測問題に対して,高価な人間の音声録音で訓練されたモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-20T11:30:26Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。