論文の概要: Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation
- arxiv url: http://arxiv.org/abs/2210.01512v1
- Date: Tue, 4 Oct 2022 10:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:38:55.145875
- Title: Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation
- Title(参考訳): スイッチなしのコード切り替え:言語非依存のエンドツーエンド音声翻訳
- Authors: Christian Huber, Enes Yavuz Ugan and Alexander Waibel
- Abstract要約: 我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a) a Language Agnostic end-to-end Speech Translation model (LAST),
and b) a data augmentation strategy to increase code-switching (CS)
performance. With increasing globalization, multiple languages are increasingly
used interchangeably during fluent speech. Such CS complicates traditional
speech recognition and translation, as we must recognize which language was
spoken first and then apply a language-dependent recognizer and subsequent
translation component to generate the desired target language output. Such a
pipeline introduces latency and errors. In this paper, we eliminate the need
for that, by treating speech recognition and translation as one unified
end-to-end speech translation problem. By training LAST with both input
languages, we decode speech into one target language, regardless of the input
language. LAST delivers comparable recognition and speech translation accuracy
in monolingual usage, while reducing latency and error rate considerably when
CS is observed.
- Abstract(参考訳): 提案します
a) 言語に依存しないエンドツーエンド音声翻訳モデル(LAST)及び
b) コードスイッチング(CS)の性能を向上させるためのデータ拡張戦略。
グローバリゼーションの増大に伴い、複数の言語がフルーレントな発話中に交換的に使用されるようになっている。
このようなCSは従来の音声認識と翻訳を複雑にし、まずどの言語が最初に話されたかを認識し、次に言語依存の認識器と後続の翻訳部品を適用して所望の言語出力を生成する。
このようなパイプラインはレイテンシとエラーをもたらす。
本稿では,音声認識と翻訳を一貫したエンドツーエンド音声翻訳問題として扱うことにより,その必要性を解消する。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
LASTは単言語使用時の音声認識と音声翻訳の精度を同等にし、CS観測時のレイテンシとエラー率を大幅に低減する。
関連論文リスト
- Gujarati-English Code-Switching Speech Recognition using ensemble
prediction of spoken language [29.058108207186816]
マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案する。
WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。
論文 参考訳(メタデータ) (2024-03-12T18:21:20Z) - TranSentence: Speech-to-speech Translation via Language-agnostic
Sentence-level Speech Encoding without Language-parallel Data [44.83532231917504]
TranSentenceは、言語並列音声データを持たない新しい音声から音声への翻訳である。
我々は、言語に依存しない文レベルの音声エンコーダから得られるエンコード埋め込みに基づいて音声を生成するために、我々のモデルを訓練する。
我々はTranSentenceを多言語音声音声翻訳に拡張する。
論文 参考訳(メタデータ) (2024-01-17T11:52:40Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。