論文の概要: Enhancing Multilingual Speech Recognition through Language Prompt Tuning
and Frame-Level Language Adapter
- arxiv url: http://arxiv.org/abs/2309.09443v1
- Date: Mon, 18 Sep 2023 02:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:21:03.178762
- Title: Enhancing Multilingual Speech Recognition through Language Prompt Tuning
and Frame-Level Language Adapter
- Title(参考訳): 言語プロンプトチューニングとフレームレベル言語アダプタによる多言語音声認識の強化
- Authors: Song Li, Yonbin You, Xuezhi Wang, Ke Ding, Guanglu Wan
- Abstract要約: 本稿では,言語構成と言語に依存しない多言語音声認識を実現するための,シンプルかつパラメータ効率のよい2つの手法を提案する。
本実験は,提案手法を用いて,7言語にまたがる大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 14.671627196574681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual intelligent assistants, such as ChatGPT, have recently gained
popularity. To further expand the applications of multilingual artificial
intelligence assistants and facilitate international communication, it is
essential to enhance the performance of multilingual speech recognition, which
is a crucial component of speech interaction. In this paper, we propose two
simple and parameter-efficient methods: language prompt tuning and frame-level
language adapter, to respectively enhance language-configurable and
language-agnostic multilingual speech recognition. Additionally, we explore the
feasibility of integrating these two approaches using parameter-efficient
fine-tuning methods. Our experiments demonstrate significant performance
improvements across seven languages using our proposed methods.
- Abstract(参考訳): ChatGPTのような多言語インテリジェントアシスタントは最近人気を集めている。
多言語人工知能アシスタントの応用をさらに拡大し、国際コミュニケーションを促進するためには、音声対話の重要な構成要素である多言語音声認識の性能を高めることが不可欠である。
本稿では,言語構成可能で言語非依存な多言語音声認識を実現するために,言語プロンプトチューニングとフレームレベル言語アダプタという2つの簡易かつパラメータ効率のよい手法を提案する。
さらに,パラメータ効率の良い微調整手法を用いて,これら2つのアプローチを統合する可能性について検討する。
本実験は,提案手法を用いて,7言語にまたがる大幅な性能向上を示す。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition [12.23416994447554]
我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。
信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
論文 参考訳(メタデータ) (2023-02-27T13:26:17Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。