論文の概要: Hierarchical Softmax for End-to-End Low-resource Multilingual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2204.03855v2
- Date: Sun, 30 Apr 2023 08:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 20:18:19.330965
- Title: Hierarchical Softmax for End-to-End Low-resource Multilingual Speech
Recognition
- Title(参考訳): 低音源多言語音声認識のための階層型ソフトマックス
- Authors: Qianying Liu, Zhuo Gong, Zhengdong Yang, Yuhang Yang, Sheng Li,
Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Chenhui Chu, Sadao
Kurohashi
- Abstract要約: 我々は多言語階層型ソフトマックス復号を行うためのハフマン木を構築する。
この階層構造は、類似したトークン間の言語間知識共有を可能にする。
本手法は低音源音声認識の精度と効率を向上させるのに有効であることを示す。
- 参考スコア(独自算出の注目度): 34.8910370990621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource speech recognition has been long-suffering from insufficient
training data. In this paper, we propose an approach that leverages neighboring
languages to improve low-resource scenario performance, founded on the
hypothesis that similar linguistic units in neighboring languages exhibit
comparable term frequency distributions, which enables us to construct a
Huffman tree for performing multilingual hierarchical Softmax decoding. This
hierarchical structure enables cross-lingual knowledge sharing among similar
tokens, thereby enhancing low-resource training outcomes. Empirical analyses
demonstrate that our method is effective in improving the accuracy and
efficiency of low-resource speech recognition.
- Abstract(参考訳): 低リソースの音声認識は、トレーニングデータ不足から長年受け継がれてきた。
本稿では, 近隣言語に類似する言語単位が, 多言語階層のSoftmaxデコーディングを行うためのHuffmanツリーを構築することができるという仮説に基づいて, 低リソースシナリオの性能を向上させるために, 近隣言語を活用するアプローチを提案する。
この階層構造により、類似トークン間の言語間知識の共有が可能になり、低リソースのトレーニング結果が向上する。
本手法は,低リソース音声認識の精度と効率を向上させるのに有効であることを示す。
関連論文リスト
- Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages [0.4499833362998489]
Chain of Translation Prompting (CoTR)は、低リソース言語における言語モデルの性能を高めるために設計された新しい戦略である。
CoTR再構成は、まず入力コンテキストを低リソース言語から高リソース言語に翻訳する。
本稿では,この手法の有効性を低リソースのインディア言語であるMarathiのケーススタディを通じて実証する。
論文 参考訳(メタデータ) (2024-09-06T17:15:17Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。