論文の概要: Language-specific Characteristic Assistance for Code-switching Speech
Recognition
- arxiv url: http://arxiv.org/abs/2206.14580v1
- Date: Wed, 29 Jun 2022 13:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:27:09.629054
- Title: Language-specific Characteristic Assistance for Code-switching Speech
Recognition
- Title(参考訳): コードスイッチング音声認識のための言語特化支援
- Authors: Tongtong Song, Qiang Xu, Meng Ge, Longbiao Wang, Hao Shi, Yongjie Lv,
Yuqin Lin, Jianwu Dang
- Abstract要約: デュアルエンコーダ構造は、2つの言語固有エンコーダ(LSE)をコードスイッチング音声認識にうまく利用している。
既存のメソッドはLSEに言語制約を持たず、LSMの言語固有の知識を未利用にしている。
上記の問題を緩和するための言語特化支援法(LSCA)を提案する。
- 参考スコア(独自算出の注目度): 42.32330582682405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dual-encoder structure successfully utilizes two language-specific encoders
(LSEs) for code-switching speech recognition. Because LSEs are initialized by
two pre-trained language-specific models (LSMs), the dual-encoder structure can
exploit sufficient monolingual data and capture the individual language
attributes. However, existing methods have no language constraints on LSEs and
underutilize language-specific knowledge of LSMs. In this paper, we propose a
language-specific characteristic assistance (LSCA) method to mitigate the above
problems. Specifically, during training, we introduce two language-specific
losses as language constraints and generate corresponding language-specific
targets for them. During decoding, we take the decoding abilities of LSMs into
account by combining the output probabilities of two LSMs and the mixture model
to obtain the final predictions. Experiments show that either the training or
decoding method of LSCA can improve the model's performance. Furthermore, the
best result can obtain up to 15.4% relative error reduction on the
code-switching test set by combining the training and decoding methods of LSCA.
Moreover, the system can process code-switching speech recognition tasks well
without extra shared parameters or even retraining based on two pre-trained
LSMs by using our method.
- Abstract(参考訳): デュアルエンコーダ構造は、2つの言語固有エンコーダ(lses)をコードスイッチング音声認識にうまく利用する。
LSEは2つの事前訓練言語固有モデル(LSM)によって初期化されるため、デュアルエンコーダ構造は十分なモノリンガルデータを利用して個々の言語属性をキャプチャすることができる。
しかし、既存のメソッドはLSEに言語制約を持たず、LSMの言語固有の知識を未利用にしている。
本稿では,上記の問題を解決するためのlsca(language-specific characteristic assistance)手法を提案する。
具体的には,言語制約として2つの言語固有の損失を導入し,それに対応する言語固有の目標を生成する。
復号を行う際,2つのlsmの出力確率と混合モデルを組み合わせて最終的な予測を行うことにより,lsmの復号能力を考慮した。
実験により, LSCAの訓練法と復号法がモデルの性能を向上させることが示された。
さらに、LSCAのトレーニングと復号法を組み合わせることで、コードスイッチングテストセットの誤差を最大15.4%削減することができる。
さらに,本手法を用いることで,余分な共有パラメータや,事前学習した2つのLSMに基づく再学習を行なわずに,コードスイッチング音声認識タスクを適切に処理することができる。
関連論文リスト
- Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - Synthetic Programming Elicitation and Repair for Text-to-Code in Very Low-Resource Programming Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは意味的正当性を犠牲にすることなく、構文的正当性プログラムをはるかに頻繁に生成する。
ケーススタディにおいて,SPEACの性能を実証的に評価し,既存の検索基準や微調整基準と比較すると,SPEACは構文的に正しいプログラムをかなり頻繁に生成することがわかった。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。