Fugu-MT 論文翻訳(概要): FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

論文の概要: FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

arxiv url: http://arxiv.org/abs/2408.06273v3
Date: Sat, 26 Oct 2024 15:55:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 11:38:16.837986
Title: FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
Title（参考訳）: FuxiTranyu: バランスデータでトレーニングされた多言語大言語モデル
Authors: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong,
Abstract要約: We present FuxiTranyu, a open-source multilingual model for large language model (LLMs)。ベースモデルであるFuxiTranyu-8Bは80億のパラメータを持ち、微妙にバランスの取れた多言語データに基づいてスクラッチから訓練されている。幅広い多言語ベンチマークの実験は、フキシトラユの競争性能を実証している。
参考スコア（独自算出の注目度）: 39.54285525397304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. The base model, FuxiTranyu-8B, features 8 billion parameters and is trained from scratch on meticulously balanced multilingual data that contains 600 billion tokens covering 43 natural languages and 16 programming languages. We also develop two instruction-tuned models: FuxiTranyu-8B-SFT which is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO which is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, and Mistral-7B-Instruct. Both neuron and representation interpretability analyses reveal that FuxiTranyu achieves consistent multilingual representations across languages. To promote further research into multilingual LLMs, we release both the base and instruction-tuned FuxiTranyu models together with 58 pre-training checkpoints at HuggingFace (see https://huggingface.co/TJUNLP/FuxiTranyu-8B) and Github (see https://github.com/tjunlp-lab/FuxiTranyu).
Abstract（参考訳）: 大規模言語モデル (LLM) は様々なタスクに長けている。しかし、多くのLLMは、ハイソース言語と低リソース言語の間に大きな性能差がある。この課題を軽減するため,オープンソースの多言語LLMであるFuxiTranyuを紹介した。ベースモデルであるFuxiTranyu-8Bは、80億のパラメータを持ち、43の自然言語と16のプログラミング言語をカバーする600億のトークンを含む厳密にバランスの取れた多言語データに基づいて、スクラッチからトレーニングされている。また、多様な多言語命令データセットを微調整したFuxiTranyu-8B-SFTと、さらにDPOで改良したFuxiTranyu-8B-DPOという2つの命令調整モデルを開発し、アライメント能力を向上させる。広範囲にわたる多言語ベンチマーク実験により、既存の多言語LLM(例えば、BLOOM-7B、PolyLM-13B、Mistral-7B-Instruct)に対するFuxiTranyuの競合性能が示された。ニューロンと表現の解釈可能性の解析は、フキシトラユが言語間で一貫した多言語表現を達成していることを示している。多言語LLMのさらなる研究を促進するため、HugingFaceの58の事前学習チェックポイント(https://huggingface.co/TJUNLP/FuxiTranyu-8B)とGithub(https://github.com/tjunlp-lab/FuxiTranyu参照)とともにベースモデルと命令チューニングモデルの両方をリリースする。

関連論文リスト

Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文参考訳（メタデータ） (2025-06-24T09:53:00Z)
FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation [43.26446958873554]
広汎言語モデル(LLM)を利用した中国語中心多言語機械翻訳モデルFuxiMTを提案する。 FuxiMTはMixture-of-Experts (MoEs)を導入し、様々なリソースレベルにわたる堅牢なパフォーマンスのためのカリキュラム学習戦略を採用している。
論文参考訳（メタデータ） (2025-05-20T12:09:17Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study [13.409987421121405]
GemmaX2-28は、28言語で最上位の多言語翻訳性能を達成する9Bモデルである。 GemmaX2-28 は TowerInstruct や XALMA などの最先端 (SOTA) モデルより一貫して優れている。
論文参考訳（メタデータ） (2025-02-04T16:57:03Z)
Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。 Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文参考訳（メタデータ） (2024-10-21T00:59:47Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Multilingual Large Language Models and Curse of Multilinguality [4.096453902709292]
大規模言語モデル(LLM)は自然言語処理(NLP)の研究者や実践者の間で広く普及している。本稿では,多言語LLMの展望を概観し,その技術的側面について概観する。基礎となるアーキテクチャ、客観的関数、事前トレーニングされたデータソース、トークン化メソッドを説明します。
論文参考訳（メタデータ） (2024-06-15T11:31:39Z)
Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文参考訳（メタデータ） (2024-05-24T11:30:37Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文参考訳（メタデータ） (2023-08-09T13:32:06Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。 In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文参考訳（メタデータ） (2022-10-24T11:41:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。