論文の概要: A language score based output selection method for multilingual speech
recognition
- arxiv url: http://arxiv.org/abs/2005.00851v1
- Date: Sat, 2 May 2020 15:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:33:20.769252
- Title: A language score based output selection method for multilingual speech
recognition
- Title(参考訳): 多言語音声認識のための言語スコアに基づく出力選択法
- Authors: Van Huy Nguyen, Thi Quynh Khanh Dinh, Truong Thinh Nguyen, Dang Khoa
Mac
- Abstract要約: 対象言語に対する全ての候補を生成するために,言語モデル再構成手法を適用する。
入力言語の識別子モデルや言語仕様を使わずに出力を自動的に選択する単純なスコアを提案する。
さらに,ベトナム語における英語の借用語の精度向上のためのソリューションとして,言語間話者の問題に対処する英語とベトナム語をエンド・ツー・エンドに設計する。
- 参考スコア(独自算出の注目度): 2.294014185517203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of a multilingual speech recognition system can be improved by
adaptation methods if the input language is specified. For systems that can
accept multilingual inputs, the popular approach is to apply a language
identifier to the input then switch or configure decoders in the next step, or
use one more subsequence model to select the output from a set of candidates.
Motivated by the goal of reducing the latency for real-time applications, in
this paper, a language model rescoring method is firstly applied to produce all
possible candidates for target languages, then a simple score is proposed to
automatically select the output without any identifier model or language
specification of the input language. The main point is that this score can be
simply and automatically estimated on-the-fly so that the whole decoding
pipeline is more simple and compact. Experimental results showed that this
method can achieve the same quality as when the input language is specified. In
addition, we present to design an English and Vietnamese End-to-End model to
deal with not only the problem of cross-lingual speakers but also as a solution
to improve the accuracy of borrowed words of English in Vietnamese.
- Abstract(参考訳): 入力言語を指定すれば、適応方式により多言語音声認識システムの品質を向上させることができる。
多言語入力を受理できるシステムでは、言語識別子を入力に適用し、次のステップでデコーダを切り替えたり設定したり、あるいは別のサブシーケンスモデルを使って候補の集合から出力を選択するのが一般的である。
本稿では,リアルタイムアプリケーションにおける遅延の低減を目標として,まず言語モデル再構成手法を適用して対象言語の候補を全て生成し,入力言語の識別子モデルや言語仕様を使わずに出力を自動選択する簡単なスコアを提案する。
主なポイントは、このスコアを簡単かつ自動的にオンザフライで推定し、デコードパイプライン全体がよりシンプルでコンパクトになることです。
実験の結果,本手法は入力言語が指定された時と同じ品質が得られることがわかった。
さらに,ベトナム語における英語の借用語の精度向上のためのソリューションとして,言語間話者の問題に対処する英語とベトナム語エンド・ツー・エンドモデルを設計する。
関連論文リスト
- Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - Soft Language Identification for Language-Agnostic Many-to-One End-to-End Speech Translation [40.0365339798752]
多くのエンドツーエンドの音声翻訳モデルは、異なるソース言語からの音声信号をターゲット言語でテキストに変換することができる。
場合によっては、入力言語を付与または推定することができる。
我々は、単純で効果的な線形入力ネットワークを導入することで、これを実現する。
論文 参考訳(メタデータ) (2024-06-12T00:00:39Z) - Gujarati-English Code-Switching Speech Recognition using ensemble
prediction of spoken language [29.058108207186816]
マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案する。
WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。
論文 参考訳(メタデータ) (2024-03-12T18:21:20Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified
Multilingual Prompt [98.26682501616024]
我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。
統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。
提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
論文 参考訳(メタデータ) (2022-02-23T11:57:52Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。