Fugu-MT 論文翻訳(概要): Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition

論文の概要: Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition

arxiv url: http://arxiv.org/abs/2204.03855v1
Date: Fri, 8 Apr 2022 05:33:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-11 13:04:35.569660
Title: Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition
Title（参考訳）: 低音源多言語音声認識のための階層型ソフトマックス
Authors: Qianying Liu, Yuhang Yang, Zhuo Gong, Sheng Li, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Sadao Kurohashi
Abstract要約: 我々は、近隣言語の類似単位が類似項周波数を共有し、Huffman木を形成して、多言語階層型Softmax復号を行うと仮定する。復号化の間、階層構造は低リソース言語のトレーニングの恩恵を受けることができる。
参考スコア（独自算出の注目度）: 30.704396336135723
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Low resource speech recognition has been long-suffering from insufficient training data. While neighbour languages are often used as assistant training data, it would be difficult for the model to induct similar units (character, subword, etc.) across the languages. In this paper, we assume similar units in neighbour language share similar term frequency and form a Huffman tree to perform multi-lingual hierarchical Softmax decoding. During decoding, the hierarchical structure can benefit the training of low-resource languages. Experimental results show the effectiveness of our method.
Abstract（参考訳）: 低リソース音声認識は、不十分なトレーニングデータから長い間悩まされてきた。近隣言語はしばしば補助訓練データとして使用されるが、モデルが類似した単位(文字、サブワードなど)を言語全体に誘導することは困難である。本稿では、近隣言語における類似単位が類似項周波数を共有し、Huffman木を形成し、多言語階層型Softmax復号を行う。復号化の間、階層構造は低リソース言語のトレーニングに役立つ。実験の結果,本手法の有効性が示された。

関連論文リスト

Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition [23.574728651878544]
自動音声認識(ASR)の復号段階に着目した新しい手法を提案する。言語間埋め込みクラスタリング法を用いて階層型ソフトマックスデコーダ(H-Softmax)を構築する。これは、以前のHuffmanベースのH-Softmax法の制限に対処する。
論文参考訳（メタデータ） (2025-01-29T12:44:30Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文参考訳（メタデータ） (2024-09-13T14:35:47Z)
Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages [0.4499833362998489]
Chain of Translation Prompting (CoTR)は、低リソース言語における言語モデルの性能を高めるために設計された新しい戦略である。 CoTR再構成は、まず入力コンテキストを低リソース言語から高リソース言語に翻訳する。本稿では,この手法の有効性を低リソースのインディア言語であるMarathiのケーススタディを通じて実証する。
論文参考訳（メタデータ） (2024-09-06T17:15:17Z)
Large Language Models are Efficient Learners of Noise-Robust Speech Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文参考訳（メタデータ） (2024-01-19T01:29:27Z)
Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文参考訳（メタデータ） (2023-03-30T16:34:10Z)
Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。モノリンガルに比べて8%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2022-07-07T15:55:41Z)
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文参考訳（メタデータ） (2021-11-02T01:55:17Z)
Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。 NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文参考訳（メタデータ） (2020-06-17T03:24:38Z)
Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文参考訳（メタデータ） (2020-04-29T14:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。