論文の概要: MAMMOTH: Massively Multilingual Modular Open Translation @ Helsinki
- arxiv url: http://arxiv.org/abs/2403.07544v1
- Date: Tue, 12 Mar 2024 11:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:54:33.448271
- Title: MAMMOTH: Massively Multilingual Modular Open Translation @ Helsinki
- Title(参考訳): MAMMOTH: 非常に多言語なモジュールオープントランスレーション @ Helsinki
- Authors: Timothee Mickus, Stig-Arne Gr\"onroos, Joseph Attieh, Michele Boggia,
Ona De Gibert, Shaoxiong Ji, Niki Andreas Lopi, Alessandro Raganato, Ra\'ul
V\'azquez, J\"org Tiedemann
- Abstract要約: MAMMOTHツールキットは,大規模な多言語モジュール型機械翻訳システムを大規模に学習するためのフレームワークである。
A100およびV100 NVIDIA GPUのクラスタ間で効率を実証し、設計哲学と今後の情報計画について議論する。
- 参考スコア(独自算出の注目度): 46.62437145754009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP in the age of monolithic large language models is approaching its limits
in terms of size and information that can be handled. The trend goes to
modularization, a necessary step into the direction of designing smaller
sub-networks and components with specialized functionality. In this paper, we
present the MAMMOTH toolkit: a framework designed for training massively
multilingual modular machine translation systems at scale, initially derived
from OpenNMT-py and then adapted to ensure efficient training across
computation clusters. We showcase its efficiency across clusters of A100 and
V100 NVIDIA GPUs, and discuss our design philosophy and plans for future
information. The toolkit is publicly available online.
- Abstract(参考訳): モノリシックな大規模言語モデルの時代におけるNLPは、扱えるサイズと情報の観点からその限界に近づいている。
モジュラー化は、より小さなサブネットワークや特殊な機能を備えたコンポーネントを設計する上で必要なステップである。
本稿では,OpenNMT-pyから派生した大規模多言語モジュール型機械翻訳システムを大規模に学習するためのフレームワークであるMAMMOTHツールキットについて述べる。
A100およびV100 NVIDIA GPUのクラスタ間で効率を実証し、設計哲学と今後の情報計画について議論する。
ツールキットはオンラインで公開されている。
関連論文リスト
- CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for
Multimodal Machine Translation [31.911593690549633]
マルチモーダル機械翻訳(MMT)システムは、視覚的知識でニューラルネットワーク翻訳(NMT)を強化する。
注釈付き多言語視覚言語データが不足しているため、従来の作業は、強力なMTTモデルをゼロからトレーニングする際の課題に直面していた。
独立に訓練されたマルチモーダルM-CLIPと多言語mBARTを適応させるCLIPTransを提案する。
論文 参考訳(メタデータ) (2023-08-29T11:29:43Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。
次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文 参考訳(メタデータ) (2023-05-05T17:59:46Z) - Lego-MT: Learning Detachable Models for Massively Multilingual Machine
Translation [48.37939354609931]
そこで我々は,Lego-MTを効果的に分離可能なモデルとして構築する,新しい効率的なトレーニングレシピを提案する。
実験の結果、1.2BパラメータのLego-MTでは平均3.2spBLEUが得られた。
提案したトレーニングレシピは、従来のマルチウェイトレーニング方法よりも28.2$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2022-12-20T18:54:08Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。