論文の概要: Multilingual Transformer Language Model for Speech Recognition in
Low-resource Languages
- arxiv url: http://arxiv.org/abs/2209.04041v1
- Date: Thu, 8 Sep 2022 21:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:34:18.292156
- Title: Multilingual Transformer Language Model for Speech Recognition in
Low-resource Languages
- Title(参考訳): 低リソース言語における音声認識のための多言語トランスフォーマー言語モデル
- Authors: Li Miao, Jian Wu, Piyush Behre, Shuangyu Chang, Sarangarajan
Parthasarathy
- Abstract要約: ハイブリット音声認識のためのTransformer LMのトレーニングとデプロイは低リソース言語での第2パスを再ランク付けすることが困難である。
本稿では,複数の低リソースローカライズローカライズをグループ化して,ASRにおける多言語トランスフォーマーLMの性能を最適化する手法を提案する。
- 参考スコア(独自算出の注目度): 6.910042651061522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is challenging to train and deploy Transformer LMs for hybrid speech
recognition 2nd pass re-ranking in low-resource languages due to (1) data
scarcity in low-resource languages, (2) expensive computing costs for training
and refreshing 100+ monolingual models, and (3) hosting inefficiency
considering sparse traffic. In this study, we present a new way to group
multiple low-resource locales together and optimize the performance of
Multilingual Transformer LMs in ASR. Our Locale-group Multilingual Transformer
LMs outperform traditional multilingual LMs along with reducing maintenance
costs and operating expenses. Further, for low-resource but high-traffic
locales where deploying monolingual models is feasible, we show that
fine-tuning our locale-group multilingual LMs produces better monolingual LM
candidates than baseline monolingual LMs.
- Abstract(参考訳): ハイブリッド音声認識のためのトランスフォーマーLMのトレーニングと展開は,(1)低リソース言語におけるデータ不足,(2)100以上のモノリンガルモデルのトレーニングとリフレッシュのための高価な計算コスト,(3)スパーストラフィックを考慮した非効率ホスティングにより,低リソース言語における第2パスの再評価が困難である。
本研究では,複数の低資源領域をグループ化し,asrにおける多言語トランスフォーマ lms の性能を最適化する新しい手法を提案する。
ローカルグループ多言語トランスフォーマーLMは,メンテナンスコストや運用コストの削減とともに,従来の多言語LMよりも優れています。
さらに,単一言語モデルの展開が実現可能な低リソースかつ高トラフィックなロケールに対して,局所的多言語lmsの微調整がベースライン単言語lmsよりも優れた単言語lm候補を生成することを示す。
関連論文リスト
- Mufu: Multilingual Fused Learning for Low-Resource Translation with LLM [32.9914093870763]
自動生成された多言語候補の選択と、プロンプト内の不正確な翻訳を補正する命令を含む。
Mufuは、翻訳タスクをポストされたタスクに変換する。
Flores-200データセット上でのEn-XX翻訳実験により,Museスタイルのプロンプトに対して微調整されたLLMは,高品質な補助翻訳候補に対して堅牢であることが示された。
論文 参考訳(メタデータ) (2024-09-20T23:48:47Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource
Languages with Integrated LLM Playgrounds [2.648836772989769]
adaptMLLMは、機械翻訳のための細調整多言語言語モデル(MLLM)のためのオープンソースツールである。
モデル評価のためのさまざまなメトリクスと、アプリケーション内で直接変換サービスとしてモデルをデプロイする機能を提供する。
AdaptMLLMシステムはLoResMT 2021の共有タスクのベースラインと比較して大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T14:49:18Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Adapting High-resource NMT Models to Translate Low-resource Related
Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。
本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。
我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文 参考訳(メタデータ) (2021-05-31T16:01:18Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。