論文の概要: Hierarchical Softmax for End-to-End Low-resource Multilingual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2204.03855v1
- Date: Fri, 8 Apr 2022 05:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:04:35.569660
- Title: Hierarchical Softmax for End-to-End Low-resource Multilingual Speech
Recognition
- Title(参考訳): 低音源多言語音声認識のための階層型ソフトマックス
- Authors: Qianying Liu, Yuhang Yang, Zhuo Gong, Sheng Li, Chenchen Ding, Nobuaki
Minematsu, Hao Huang, Fei Cheng, Sadao Kurohashi
- Abstract要約: 我々は、近隣言語の類似単位が類似項周波数を共有し、Huffman木を形成して、多言語階層型Softmax復号を行うと仮定する。
復号化の間、階層構造は低リソース言語のトレーニングの恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 30.704396336135723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low resource speech recognition has been long-suffering from insufficient
training data. While neighbour languages are often used as assistant training
data, it would be difficult for the model to induct similar units (character,
subword, etc.) across the languages. In this paper, we assume similar units in
neighbour language share similar term frequency and form a Huffman tree to
perform multi-lingual hierarchical Softmax decoding. During decoding, the
hierarchical structure can benefit the training of low-resource languages.
Experimental results show the effectiveness of our method.
- Abstract(参考訳): 低リソース音声認識は、不十分なトレーニングデータから長い間悩まされてきた。
近隣言語はしばしば補助訓練データとして使用されるが、モデルが類似した単位(文字、サブワードなど)を言語全体に誘導することは困難である。
本稿では、近隣言語における類似単位が類似項周波数を共有し、Huffman木を形成し、多言語階層型Softmax復号を行う。
復号化の間、階層構造は低リソース言語のトレーニングに役立つ。
実験の結果,本手法の有効性が示された。
関連論文リスト
- Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Multilingual Byte2Speech Text-To-Speech Models Are Few-shot Spoken
Language Learners [11.190877290770047]
本稿では、バイト入力をスペクトログラムにマッピングし、任意の入力スクリプトを可能にする多言語用エンドツーエンドテキスト合成フレームワークを提案する。
このフレームワークは、極端に低リソースのシナリオ下で、様々な新しい言語に適応する能力を示す。
多言語モデルのメカニズムをよりよく理解するために,言語固有のサブネットワークを抽出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T08:41:45Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。