Fugu-MT 論文翻訳(概要): Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer

論文の概要: Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer

arxiv url: http://arxiv.org/abs/2306.08753v3
Date: Sat, 16 Sep 2023 05:32:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 23:28:19.233975
Title: Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer
Title（参考訳）: 連結化トークン化器を用いた音声認識と言語識別の統一モデル
Authors: Kunal Dhawan, Dima Rekesh, Boris Ginsburg
Abstract要約: Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
参考スコア（独自算出の注目度）: 17.700515986659063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code-Switching (CS) multilingual Automatic Speech Recognition (ASR) models can transcribe speech containing two or more alternating languages during a conversation. This paper proposes (1) a new method for creating code-switching ASR datasets from purely monolingual data sources, and (2) a novel Concatenated Tokenizer that enables ASR models to generate language ID for each emitted text token while reusing existing monolingual tokenizers. The efficacy of these approaches for building CS ASR models is demonstrated for two language pairs, English-Hindi and English-Spanish, where we achieve new state-of-the-art results on the Miami Bangor CS evaluation corpus. In addition to competitive ASR performance, the proposed Concatenated Tokenizer models are highly effective for spoken language identification, achieving 98%+ accuracy on the out-of-distribution FLEURS dataset.
Abstract（参考訳）: Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。本稿では,(1)純粋に単言語データソースからasrデータセットをコード切り換える新しい方法,(2)既存の単言語トークンを再利用しながら,asrモデルが出力されたテキストトークン毎に言語idを生成する新しい連結トークン化器を提案する。 CS ASRモデル構築におけるこれらの手法の有効性は,マイアミ・バンゴールCS評価コーパスにおいて,2つの言語対であるイングリッシュ・ヒンディー語とイングリッシュ・スパニッシュ語で実証された。競合的なASR性能に加えて、提案した統合トークン化モデルは音声言語識別に極めて有効であり、FLEURSデータセットの98%以上の精度を実現している。

関連論文リスト

HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition [4.5783117953100785]
コードスイッチング(英: Code-switching)とは、日々の発話に共通する発話の中で言語が混在することである。 HiKEは、韓国語と英語のコードスイッチングのための、世界で初めてアクセス可能な評価フレームワークである。
論文参考訳（メタデータ） (2025-09-29T11:18:13Z)
Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR [23.285609467633865]
本稿では、多言語連続会話自動音声認識(ASR)を改善するために、言語固有の双方向コンテキストを音声大言語モデル(SLLM)に統合する。トレーニング中の文字レベルのコンテキストマスキング戦略を提案する。これにより、コンテキストの一部がランダムに除去され、堅牢性が向上し、推論中に発生する可能性のある欠陥のある文字のエミュレートが向上する。
論文参考訳（メタデータ） (2025-06-16T12:03:23Z)
CS-Dialogue: A 104-Hour Dataset of Spontaneous Mandarin-English Code-Switching Dialogues for Speech Recognition [17.806195208457428]
コードスイッチング(英: Code-switching)とは、1つの会話の中で2つ以上の言語を交換することである。既存のマンダリン・イングリッシュのコードスイッチングデータセットは、サイズ、自発性、および書き起こしを伴うフル長の対話記録の欠如に悩まされることが多い。 CS-Dialogueは,200人の話者から104時間の自発的な会話を含む,大規模マンダリン・イングリッシュ・コードスイッチング音声データセットである。
論文参考訳（メタデータ） (2025-02-26T07:59:55Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文参考訳（メタデータ） (2023-12-15T07:46:35Z)
Speech collage: code-switched audio generation by collaging monolingual corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。 2つのシナリオにおける音声認識における生成データの影響について検討する。
論文参考訳（メタデータ） (2023-09-27T14:17:53Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文参考訳（メタデータ） (2022-11-05T04:03:55Z)
Towards Zero-Shot Code-Switched Speech Recognition [44.76492452463019]
ゼロショット設定の下で,効率的な符号切替自動音声認識システム (ASR) の構築を目指す。そこで本研究では,各単言語モジュールの音声セグメントを単言語スクリプトで不特定に書き起こすことにより,各単言語モジュールを単純化することを提案する。本手法をエンドツーエンドの微分可能なニューラルネットワークに適用し、マンダリン英語SEAMEテストセットにおけるゼロショットCS ASRの有効性を実証する。
論文参考訳（メタデータ） (2022-11-02T19:52:54Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文参考訳（メタデータ） (2022-09-13T05:14:08Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Streaming End-to-End Bilingual ASR Systems with Joint Language Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文参考訳（メタデータ） (2020-07-08T05:00:25Z)
Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。 NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文参考訳（メタデータ） (2020-04-02T18:31:18Z)
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文参考訳（メタデータ） (2020-02-19T12:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。