Fugu-MT 論文翻訳(概要): Adaptive multilingual speech recognition with pretrained models

論文の概要: Adaptive multilingual speech recognition with pretrained models

arxiv url: http://arxiv.org/abs/2205.12304v1
Date: Tue, 24 May 2022 18:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-29 04:18:56.065716
Title: Adaptive multilingual speech recognition with pretrained models
Title（参考訳）: 事前学習モデルを用いた適応多言語音声認識
Authors: Ngoc-Quan Pham, Alex Waibel, Jan Niehues
Abstract要約: 本稿では,2つのモードに対して事前学習した2つのモデルの有効性について検討する。全体としては、純粋に教師付き学習よりも44%の改善が見られた。
参考スコア（独自算出の注目度）: 24.01587237432548
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual speech recognition with supervised learning has achieved great results as reflected in recent research. With the development of pretraining methods on audio and text data, it is imperative to transfer the knowledge from unsupervised multilingual models to facilitate recognition, especially in many languages with limited data. Our work investigated the effectiveness of using two pretrained models for two modalities: wav2vec 2.0 for audio and MBART50 for text, together with the adaptive weight techniques to massively improve the recognition quality on the public datasets containing CommonVoice and Europarl. Overall, we noticed an 44% improvement over purely supervised learning, and more importantly, each technique provides a different reinforcement in different languages. We also explore other possibilities to potentially obtain the best model by slightly adding either depth or relative attention to the architecture.
Abstract（参考訳）: 教師付き学習を用いた多言語音声認識は,近年の研究では大きな成果を上げている。音声およびテキストデータに対する事前学習手法の開発により、特に限られたデータを持つ多くの言語において、教師なし多言語モデルから知識を伝達することが不可欠である。本研究では,音声用wav2vec 2.0とテキスト用mbart50の2つのモードに対する事前学習モデルの有効性と,commonvoiceとeuroparlを含む公開データセットの認識品質を大幅に向上させる適応重み技術について検討した。全体としては、純粋に教師付き学習よりも44%改善していることに気づきました。また、アーキテクチャに奥行きや相対的な注意を少し加えることで、最良のモデルを得る可能性についても検討します。

関連論文リスト

Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,低リソース言語タイ語における音声言語モデルの評価を行い,多言語基盤にも拘わらず,言語間能力の欠如が判明した。本実験は,低リソース言語において,言語固有の学習データと多言語学習データのバランスをとることで,命令追従を改善するための知見を提供する。提案されたTyphoon-Audioモデルは、既存のオープンソースモデルよりも大幅に優れており、英語とタイ語の両方で最先端のGemini-1.5-Proに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-09-17T09:04:03Z)
Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文参考訳（メタデータ） (2024-06-13T22:55:22Z)
Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文参考訳（メタデータ） (2023-03-30T16:34:10Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
Adapting Multilingual Speech Representation Model for a New, Underresourced Language through Multilingual Fine-tuning and Continued Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-01-18T03:57:53Z)
Large vocabulary speech recognition for languages of Africa: multilingual modeling and self-supervised learning [11.408563104045285]
アフリカで話されている2000以上の言語のうち、ほとんど誰も自動音声認識システムを提供していない。我々はアフリカ語に対する大語彙音声認識の経路を提供する2つの手法の実験を行った。
論文参考訳（メタデータ） (2022-08-05T09:54:19Z)
Adaptive Activation Network For Low Resource Multilingual Speech Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。 IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2022-05-28T04:02:59Z)
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文参考訳（メタデータ） (2021-09-28T04:43:11Z)
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文参考訳（メタデータ） (2021-09-19T16:39:22Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)
Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文参考訳（メタデータ） (2020-04-29T14:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。