論文の概要: TalTech Systems for the Interspeech 2025 ML-SUPERB 2.0 Challenge
- arxiv url: http://arxiv.org/abs/2506.01458v1
- Date: Mon, 02 Jun 2025 09:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.118634
- Title: TalTech Systems for the Interspeech 2025 ML-SUPERB 2.0 Challenge
- Title(参考訳): 2025 ML-SUPERB 2.0 チャレンジのためのTalTechシステム
- Authors: Tanel Alumäe, Artem Fedorchenko,
- Abstract要約: 事前訓練された言語埋め込みモデルと、言語間で共有エンコーダを持つ軽量音声認識モデルからなるハイブリッド言語識別システムを用いる。
音声認識には3つのモデルを使用し、トレーニングデータの可用性と保留データの性能に応じて、各言語に1つのモデルのみを適用する。
システムは、チャレンジで総合的なスコアを獲得しました。
- 参考スコア(独自算出の注目度): 4.297070083645049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the language identification and multilingual speech recognition system developed at Tallinn University of Technology for the Interspeech 2025 ML-SUPERB 2.0 Challenge. A hybrid language identification system is used, consisting of a pretrained language embedding model and a light-weight speech recognition model with a shared encoder across languages and language-specific bigram language models. For speech recognition, three models are used, where only a single model is applied for each language, depending on the training data availability and performance on held-out data. The model set consists of a finetuned version of SeamlessM4T, MMS-1B-all with custom language adapters and MMS-zeroshot. The system obtained the top overall score in the challenge.
- Abstract(参考訳): 本稿では,Tallinn University of Technology for the Interspeech 2025 ML-SUPERB 2.0 Challengeで開発された言語識別と多言語音声認識システムについて述べる。
事前訓練された言語埋め込みモデルと、言語と言語固有のビッグラム言語モデルにまたがる共有エンコーダを備えた軽量音声認識モデルからなるハイブリッド言語識別システムを用いる。
音声認識には3つのモデルを使用し、トレーニングデータの可用性と保留データの性能に応じて、各言語に1つのモデルのみを適用する。
モデルセットは、SeamlessM4Tの微調整されたバージョン、カスタム言語アダプタを備えたMSM-1B-all、MSM-ゼロショットで構成されている。
システムは、チャレンジで総合的なスコアを獲得しました。
関連論文リスト
- SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Language-Universal Adapter Learning with Knowledge Distillation for
End-to-End Multilingual Speech Recognition [28.416831396722106]
本稿では,エンドツーエンドの多言語自動音声認識のための事前学習モデルに基づく言語・ユニバーサル適応学習フレームワークを提案する。
オンライン知識蒸留は、言語固有の特徴と普遍的な特徴の両方を学習するために使用される。
従来の多言語モデルと比較して、3.3%の絶対誤差率削減が達成されている。
論文 参考訳(メタデータ) (2023-02-28T14:43:49Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。