論文の概要: A Comparative Study on Neural Architectures and Training Methods for
Japanese Speech Recognition
- arxiv url: http://arxiv.org/abs/2106.05111v1
- Date: Wed, 9 Jun 2021 14:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:00:18.541340
- Title: A Comparative Study on Neural Architectures and Training Methods for
Japanese Speech Recognition
- Title(参考訳): 日本語音声認識のためのニューラルアーキテクチャと学習法の比較研究
- Authors: Shigeki Karita, Yotaro Kubo, Michiel Adriaan Unico Bacchiani, Llion
Jones
- Abstract要約: 本稿では,最新のE2Eモデリング技術に注目し,文字ベース日本語ASRの性能について検討する。
最高の構成は、それぞれ独立日本語コーパス(CSJ)eval1、eval2、eval3タスクの4.1%、3.2%、および3.5%という最先端の文字誤り率を達成した。
- 参考スコア(独自算出の注目度): 12.111256995668969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) modeling is advantageous for automatic speech recognition
(ASR) especially for Japanese since word-based tokenization of Japanese is not
trivial, and E2E modeling is able to model character sequences directly. This
paper focuses on the latest E2E modeling techniques, and investigates their
performances on character-based Japanese ASR by conducting comparative
experiments. The results are analyzed and discussed in order to understand the
relative advantages of long short-term memory (LSTM), and Conformer models in
combination with connectionist temporal classification, transducer, and
attention-based loss functions. Furthermore, the paper investigates on
effectivity of the recent training techniques such as data augmentation
(SpecAugment), variational noise injection, and exponential moving average. The
best configuration found in the paper achieved the state-of-the-art character
error rates of 4.1%, 3.2%, and 3.5% for Corpus of Spontaneous Japanese (CSJ)
eval1, eval2, and eval3 tasks, respectively. The system is also shown to be
computationally efficient thanks to the efficiency of Conformer transducers.
- Abstract(参考訳): エンド・ツー・エンド(E2E)モデリングは、特に日本語の音声認識(ASR)において、日本語の単語ベースのトークン化は自明なものではなく、文字列を直接モデル化できるため有利である。
本稿では, 最新のE2Eモデリング技術に注目し, 比較実験により, 文字ベース日本語ASRの性能について検討する。
これらの結果は,長期記憶(LSTM)とコンバータモデルと接続性時間的分類,トランスデューサ,注意に基づく損失関数の相対的優位性を理解するために分析・議論された。
さらに,データ拡張(種別),変動騒音注入,指数的移動平均といった最近の訓練手法の効果について検討した。
本論文で得られた最適構成は, 自発日本語コーパス(CSJ) eval1, eval2, eval3タスクでそれぞれ4.1%, 3.2%, 3.5%の文字誤り率を達成した。
また、コンフォーマトランスデューサの効率性により、計算効率も高いことが示されている。
関連論文リスト
- Few-shot learning for automated content analysis: Efficient coding of
arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。
これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。
我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文 参考訳(メタデータ) (2023-12-28T11:39:08Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Improved Zero-Shot Audio Tagging & Classification with Patchout
Spectrogram Transformers [7.817685358710508]
Zero-Shot(ZS)学習は、適応可能なクラス記述に基づいてクラスを予測することによって制約を克服する。
本研究では,ZS学習における自己注意型音声埋め込みアーキテクチャの有効性について検討する。
論文 参考訳(メタデータ) (2022-08-24T09:48:22Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。