論文の概要: FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2505.14256v1
- Date: Tue, 20 May 2025 12:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.158809
- Title: FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation
- Title(参考訳): FuxiMT:中国語中心多言語機械翻訳のための大規模言語モデル
- Authors: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong,
- Abstract要約: 広汎言語モデル(LLM)を利用した中国語中心多言語機械翻訳モデルFuxiMTを提案する。
FuxiMTはMixture-of-Experts (MoEs)を導入し、様々なリソースレベルにわたる堅牢なパフォーマンスのためのカリキュラム学習戦略を採用している。
- 参考スコア(独自算出の注目度): 43.26446958873554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present FuxiMT, a novel Chinese-centric multilingual machine translation model powered by a sparsified large language model (LLM). We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on a massive Chinese corpus and then conduct multilingual fine-tuning on a large parallel dataset encompassing 65 languages. FuxiMT incorporates Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust performance across various resource levels. Experimental results demonstrate that FuxiMT significantly outperforms strong baselines, including state-of-the-art LLMs and machine translation models, particularly under low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot translation capabilities for unseen language pairs, indicating its potential to bridge communication gaps where parallel data are scarce or unavailable.
- Abstract(参考訳): 本稿では,広汎言語モデル(LLM)を利用した中国語中心の多言語機械翻訳モデルであるFuxiMTを提案する。
我々は、FuxiMTの訓練に2段階の戦略を採用する。
まず,中国の大規模コーパス上でモデルを事前学習し,65言語を含む大規模並列データセット上で多言語微調整を行う。
FuxiMTはMixture-of-Experts (MoEs)を導入し、様々なリソースレベルにわたる堅牢なパフォーマンスのためのカリキュラム学習戦略を採用している。
FuxiMTは、特に低リソースシナリオにおいて、最先端のLLMや機械翻訳モデルなど、強力なベースラインを著しく上回ることを示す実験結果が得られた。
さらに、FuxiMTは未確認の言語ペアに対して顕著なゼロショット翻訳機能を示し、並列データが不足したり、利用できない通信ギャップを埋める可能性を示している。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study [13.409987421121405]
GemmaX2-28は、28言語で最上位の多言語翻訳性能を達成する9Bモデルである。
GemmaX2-28 は TowerInstruct や XALMA などの最先端 (SOTA) モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-02-04T16:57:03Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data [39.54285525397304]
We present FuxiTranyu, a open-source multilingual model for large language model (LLMs)。
ベースモデルであるFuxiTranyu-8Bは80億のパラメータを持ち、微妙にバランスの取れた多言語データに基づいてスクラッチから訓練されている。
幅広い多言語ベンチマークの実験は、フキシトラユの競争性能を実証している。
論文 参考訳(メタデータ) (2024-08-12T16:34:56Z) - To Translate or Not to Translate: A Systematic Investigation of Translation-Based Cross-Lingual Transfer to Low-Resource Languages [0.0]
低リソース言語へのトランスファーのための,既存の翻訳に基づく新しいXLT手法の評価と提案を行う。
翻訳に基づくアプローチはすべて, mLM でゼロショット XLT を劇的に上回っていることを示す。
MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T22:03:28Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。