論文の概要: Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2501.17615v1
- Date: Wed, 29 Jan 2025 12:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:26.847455
- Title: Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition
- Title(参考訳): 低音源マルチリンガル音声認識における階層型ソフトマックスのための言語間埋め込みクラスタリング
- Authors: Zhengdong Yang, Qianying Liu, Sheng Li, Fei Cheng, Chenhui Chu,
- Abstract要約: 自動音声認識(ASR)の復号段階に着目した新しい手法を提案する。
言語間埋め込みクラスタリング法を用いて階層型ソフトマックスデコーダ(H-Softmax)を構築する。
これは、以前のHuffmanベースのH-Softmax法の制限に対処する。
- 参考スコア(独自算出の注目度): 23.574728651878544
- License:
- Abstract: We present a novel approach centered on the decoding stage of Automatic Speech Recognition (ASR) that enhances multilingual performance, especially for low-resource languages. It utilizes a cross-lingual embedding clustering method to construct a hierarchical Softmax (H-Softmax) decoder, which enables similar tokens across different languages to share similar decoder representations. It addresses the limitations of the previous Huffman-based H-Softmax method, which relied on shallow features in token similarity assessments. Through experiments on a downsampled dataset of 15 languages, we demonstrate the effectiveness of our approach in improving low-resource multilingual ASR accuracy.
- Abstract(参考訳): 本稿では、特に低リソース言語における多言語性能を向上させるための、ASR(Automatic Speech Recognition)の復号段階に着目した新しいアプローチを提案する。
言語間埋め込みクラスタリング手法を用いて階層型ソフトマックスデコーダ(H-Softmax)を構築する。
H-Softmax法は, トークン類似性評価において, 浅い特徴に依存していた。
15言語からなるサンプルデータセットの実験を通じて,低リソース多言語ASRの精度向上に向けたアプローチの有効性を実証した。
関連論文リスト
- Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition [9.853451215277346]
自己教師付き階層表現(SSHR)を利用してMMSモデルを微調整する新しい手法を提案する。
我々は,2つの多言語データセットであるCommon VoiceとML-SUPERBについてSSHRを評価し,その実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-09-29T02:35:36Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Hierarchical Softmax for End-to-End Low-resource Multilingual Speech
Recognition [34.8910370990621]
我々は多言語階層型ソフトマックス復号を行うためのハフマン木を構築する。
この階層構造は、類似したトークン間の言語間知識共有を可能にする。
本手法は低音源音声認識の精度と効率を向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-04-08T05:33:51Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language
and Accent Identification [0.013428344011390777]
エッジデバイス上での多言語音声認識を実現するための新しい手法を提案する。
このアプローチでは、言語識別とアクセント識別の両方を使用して、複数の単言語ASRモデルの1つをオンザフライで選択する。
認識性能と資源利用の両面での最初の結果は,他のソリューションが消費するメモリの1/12以下を用いて,我々のアプローチに期待できるものである。
論文 参考訳(メタデータ) (2021-08-04T12:59:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。