論文の概要: MCAT: Scaling Many-to-Many Speech-to-Text Translation with MLLMs to 70 Languages
- arxiv url: http://arxiv.org/abs/2512.01512v1
- Date: Mon, 01 Dec 2025 10:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.807193
- Title: MCAT: Scaling Many-to-Many Speech-to-Text Translation with MLLMs to 70 Languages
- Title(参考訳): MCAT:MLLMによる多言語間音声テキスト翻訳を70言語に拡張
- Authors: Yexing Du, Kaiyuan Liu, Youcheng Pan, Bo Yang, Keqi Deng, Xie Chen, Yang Xiang, Ming Liu, Bin Qin, YaoWei Wang,
- Abstract要約: 本稿では,2つの革新を含む費用対効果の高い音声テキスト翻訳フレームワークを提案する。
まず,カリキュラム学習とデータバランス戦略を活用する言語スケーリング手法を導入し,MLLMがサポートする言語カバレッジを70言語に拡張する。
第二に、最適化された音声アダプタモジュールは、音声列の長さを30トークンに短縮するように設計されている。
- 参考スコア(独自算出の注目度): 48.78290197341843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved great success in Speech-to-Text Translation (S2TT) tasks. However, current research is constrained by two key challenges: language coverage and efficiency. Most of the popular S2TT datasets are substantially English-centric, which restricts the scaling-up of MLLMs' many-to-many translation capabilities. Moreover, the inference speed of MLLMs degrades dramatically when the speech is converted into long sequences (e.g., 750 tokens). To address these limitations, we propose a Multilingual Cost-effective Accelerated Speech-to-Text Translator (MCAT) framework, which includes two innovations. First, a language scaling method that leverages curriculum learning and a data balancing strategy is introduced to extend the language coverage supported by MLLMs to 70 languages and achieve mutual translation among these languages. Second, an optimized speech adapter module is designed to reduce the length of the speech sequence to only 30 tokens. Extensive experiments were conducted on MLLMs of different scales (9B and 27B). The experimental results demonstrate that MCAT not only surpasses state-of-the-art end-to-end models on the FLEURS dataset across 70x69 directions but also enhances batch inference efficiency. This is achieved with only ~100M trainable parameters and by using only 10 hours of S2TT data per language. Furthermore, we have released MCAT as open-source to promote the development of MLLMs for robust S2TT capabilities. The code and models are released at https://github.com/yxduir/m2m-70.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は音声テキスト翻訳(S2TT)タスクにおいて大きな成功を収めている。
しかし、現在の研究は言語カバレッジと効率性の2つの主要な課題によって制約されている。
一般的なS2TTデータセットのほとんどは英語中心であり、MLLMの多対多翻訳能力のスケールアップを制限している。
さらに、MLLMの推論速度は、音声が長いシーケンス(例えば750トークン)に変換されると劇的に低下する。
これらの制約に対処するために,2つの革新を含む多言語費用効率向上型音声テキスト翻訳(MCAT)フレームワークを提案する。
まず、カリキュラム学習とデータバランス戦略を活用した言語スケーリング手法を導入し、MLLMがサポートする言語を70言語に拡張し、それらの言語間の相互翻訳を実現する。
第二に、最適化された音声アダプタモジュールは、音声列の長さを30トークンに短縮するように設計されている。
異なるスケール (9B, 27B) のMLLMに対して大規模な実験を行った。
実験の結果、MCATはFLEURSデータセットの70x69方向における最先端のエンドツーエンドモデルを上回るだけでなく、バッチ推論効率も向上することが示された。
トレーニング可能なパラメータはたったの100Mで、言語毎に10時間分のS2TTデータしか使用できない。
さらに我々は,堅牢なS2TT機能のためのMLLMの開発を促進するために,MCATをオープンソースとしてリリースした。
コードとモデルはhttps://github.com/yxduir/m2m-70で公開されている。
関連論文リスト
- Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Making LLMs Better Many-to-Many Speech-to-Text Translators with Curriculum Learning [32.883836078329665]
MLLM(Multimodal Large Language Models)は、音声テキスト翻訳(S2TT)タスクにおいて大きな成功を収めている。
本稿では,大規模言語モデルの機械翻訳機能を活用し,S2TTタスクに適応する3段階のカリキュラム学習戦略を提案する。
実験結果から,提案手法は15時間14ドルの言語対で最先端の平均性能を実現することが示された。
論文 参考訳(メタデータ) (2024-09-29T01:48:09Z) - LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes [9.254047358707014]
本稿では,Alpaca-52K,Dolly-15K,Vicuna Benchmarkを132言語に翻訳する多言語インストラクション・チューニングデータセット(MITS)を紹介する。
次に,emphTaCo: Translation-Assisted Cross-Lingualityという新たな手法を提案する。
提案手法は,Vicuna Benchmark データセットの低リソース言語に対して 82% のスコアで GPT-4 を圧縮し,命令チューニングと比較して性能を2倍にすることを示す。
論文 参考訳(メタデータ) (2023-11-17T06:55:32Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。