Fugu-MT 論文翻訳(概要): MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond

論文の概要: MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond

arxiv url: http://arxiv.org/abs/2412.11538v2
Date: Fri, 20 Dec 2024 09:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.561974
Title: MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond
Title（参考訳）: MERaLiON-SpeechEncoder:シンガポールおよび海外向け音声基礎モデルを目指して
Authors: Muhammad Huzaifah, Geyu Lin, Tianchi Liu, Hardik B. Sailor, Kye Min Tan, Tarun K. Vangani, Qiongqiong Wang, Jeremy H. M. Wong, Nancy F. Chen, Ai Ti Aw,
Abstract要約: MERaLiON-SpeechEncoderは、幅広いダウンストリーム音声アプリケーションをサポートするために設計された基礎モデルである。シンガポールの国定マルチモーダル大言語モデルプログラムの一部として開発された。このモデルは、シンガポールで話される諸種を含む、主に英語をサポートしている。
参考スコア（独自算出の注目度）: 33.46428078179056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This technical report describes the MERaLiON-SpeechEncoder, a foundation model designed to support a wide range of downstream speech applications. Developed as part of Singapore's National Multimodal Large Language Model Programme, the MERaLiON-SpeechEncoder is tailored to address the speech processing needs in Singapore and the surrounding Southeast Asian region. The model currently supports mainly English, including the variety spoken in Singapore. We are actively expanding our datasets to gradually cover other languages in subsequent releases. The MERaLiON-SpeechEncoder was pre-trained from scratch on 200,000 hours of unlabelled speech data using a self-supervised learning approach based on masked language modelling. We describe our training procedure and hyperparameter tuning experiments in detail below. Our evaluation demonstrates improvements to spontaneous and Singapore speech benchmarks for speech recognition, while remaining competitive to other state-of-the-art speech encoders across ten other speech tasks. We commit to releasing our model, supporting broader research endeavours, both in Singapore and beyond.
Abstract（参考訳）: この技術報告では、幅広いダウンストリーム音声アプリケーションをサポートするために設計された基礎モデルであるMERaLiON-SpeechEncoderについて述べる。 MERaLiON-SpeechEncoderはシンガポールの国定マルチモーダル大言語モデルプログラムの一部として開発され、シンガポールと周辺東南アジア地域の音声処理のニーズに対処するために設計されている。このモデルは、シンガポールで話される諸種を含む、主に英語をサポートしている。以降のリリースでは、データセットを積極的に拡張して、他の言語を徐々にカバーしています。 MERaLiON-SpeechEncoderは、マスク付き言語モデリングに基づく自己教師付き学習手法を用いて、20,000時間の未学習音声データをスクラッチから事前訓練した。トレーニング手順とハイパーパラメータチューニング実験について,以下に詳述する。本評価は, 音声認識における自発およびシンガポールの音声ベンチマークの改善を実証すると共に, 他の10種類の音声タスクにおいて, 最先端の音声エンコーダとの競争を継続することを示す。シンガポールと海外の両方で幅広い研究活動を支援するため、当社のモデルをリリースすることを約束します。

関連論文リスト

PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。 PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文参考訳（メタデータ） (2026-01-20T15:00:36Z)
Speech Language Models for Under-Represented Languages: Insights from Wolof [9.14632796153174]
We present our journey in training a speech language model for Wolof, a underrepresented language spoken in West Africa。まず,大規模で自発的で高品質な教師なし音声データを収集することの重要性を強調した。このデータセット上でのHuBERTの事前学習は、ASRのベースモデルとアフリカ中心モデルの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-09-18T19:01:48Z)
SENSE models: an open source solution for multilingual and multimodal semantic-based tasks [11.951746684966205]
SENSE(Shared Embedding for N-lingual Speech and tExt)は、SAMU-XLSRフレームワークにインスパイアされたオープンソースのソリューションである。本稿では,より強力な教師用テキストモデルとより優れた初期音声エンコーダを選択することで,オリジナルのSAMU-XLSR法がどのように更新されたかを述べる。本稿では,SENSEモデルを用いた多言語・多モーダルセマンティックタスクの実験結果について報告する。
論文参考訳（メタデータ） (2025-09-15T16:18:51Z)
Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文参考訳（メタデータ） (2025-01-02T03:28:52Z)
MERaLiON-AudioLLM: Technical Report [37.90189271403642]
シンガポールの多文化景観に合わせた最初の音声テキストモデルであるMERaLiON-AudioLLMを紹介する。 MERaLiON-AudioLLMは、局所的なアクセントや方言の多様な言語的ニュアンスに対処するために、高度な音声処理とテキスト処理を統合している。
論文参考訳（メタデータ） (2024-12-13T03:15:05Z)
Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。 Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文参考訳（メタデータ） (2024-07-01T09:51:48Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文参考訳（メタデータ） (2024-02-20T02:04:38Z)
PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文参考訳（メタデータ） (2023-06-05T15:53:15Z)
Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。 3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文参考訳（メタデータ） (2023-05-24T17:59:05Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Mandarin-English Code-switching Speech Recognition with Self-supervised Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文参考訳（メタデータ） (2021-10-07T14:43:35Z)
KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian Languages Code-Switching Challenge [7.711092265101041]
本稿では,低リソースのインド言語に対するICS(Interspeech 2021 Code-switching)チャレンジに参加するために使用される,Kanari/QCRIシステムとモデリング戦略について述べる。このサブタスクには、ヒンディー語とベンガル語という2つのCSデータセットのための音声認識システムの開発が含まれていた。 CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。
論文参考訳（メタデータ） (2021-06-10T16:12:51Z)
Multilingual Bottleneck Features for Improving ASR Performance of Code-Switched Speech in Under-Resourced Languages [12.139300459657974]
アフリカ語におけるコード切替(CS)音声の自動音声認識のための音響モデリングにおける多言語ボトルネック機能(mBNF)の利点について検討する。我々は、自由に利用できる多言語NCHLTコーパスの一部である9つの南バントゥー言語を用いてmBNF抽出器を訓練する。以上の結果から,mBNF 機能の導入は,mBNF を使用せずに訓練したベースラインに対して,コードスイッチした English-isiZulu , English-isiXa , English-Sesotho および English-Setswana 音声に対して,明確な性能向上をもたらすことが示された。
論文参考訳（メタデータ） (2020-10-31T18:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。