論文の概要: OpusCleaner and OpusTrainer, open source toolkits for training Machine
Translation and Large language models
- arxiv url: http://arxiv.org/abs/2311.14838v1
- Date: Fri, 24 Nov 2023 20:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 23:24:10.455184
- Title: OpusCleaner and OpusTrainer, open source toolkits for training Machine
Translation and Large language models
- Title(参考訳): OpusCleanerとOpusTrainer - 機械翻訳と大規模言語モデルのトレーニング用オープンソースツールキット
- Authors: Nikolay Bogoychev, Jelmer van der Linde, Graeme Nail, Barry Haddow,
Jaume Zaragoza-Bernabeu, Gema Ram\'irez-S\'anchez, Lukas Weymann, Tudor
Nicolae Mateiu, Jind\v{r}ich Helcl, Mikko Aulamo
- Abstract要約: OpusCleanerはデータダウンロード、クリーニング、プロプロセッシングツールキットである。
OpusTrainerはデータスケジューリングとデータ拡張ツールである。
ノイズの多いユーザ入力に対して堅牢な高品質の機械翻訳モデルを構築するために、どのように使用できるかを示します。
- 参考スコア(独自算出の注目度): 21.245112100149974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing high quality machine translation systems is a labour intensive,
challenging and confusing process for newcomers to the field. We present a pair
of tools OpusCleaner and OpusTrainer that aim to simplify the process, reduce
the amount of work and lower the entry barrier for newcomers.
OpusCleaner is a data downloading, cleaning, and proprocessing toolkit. It is
designed to allow researchers to quickly download, visualise and preprocess
bilingual (or monolingual) data that comes from many different sources, each of
them with different quality, issues, and unique filtering/preprocessing
requirements.
OpusTrainer is a data scheduling and data augmenting tool aimed at building
large scale, robust machine translation systems and large language models. It
features deterministic data mixing from many different sources, on-the-fly data
augmentation and more.
Using these tools, we showcase how we can use it to create high quality
machine translation model robust to noisy user input; multilingual models and
terminology aware models.
- Abstract(参考訳): 高品質な機械翻訳システムの開発は、新参者にとって、労働集約的で困難で混乱したプロセスである。
OpusCleaner と OpusTrainer は,プロセスを簡素化し,作業量を削減し,新規参入者の参入障壁を低くするツールである。
OpusCleanerはデータダウンロード、クリーニング、プロ処理ツールキットである。
研究者が複数の異なるソースから得られたバイリンガル(あるいはモノリンガル)データを素早くダウンロード、可視化、事前処理できるように設計されており、それぞれに品質、問題、ユニークなフィルタリング/前処理要件がある。
OpusTrainerは、大規模で堅牢な機械翻訳システムと大規模言語モデルの構築を目的とした、データスケジューリングとデータ拡張ツールである。
多くの異なるソースからの決定論的データ混合、オンザフライデータ拡張などを備えている。
これらのツールを用いて、ノイズの多いユーザ入力に頑健な高品質機械翻訳モデル、多言語モデル、用語認識モデルを作成する方法を紹介する。
関連論文リスト
- Using Machine Translation to Augment Multilingual Classification [0.0]
複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。
翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。
論文 参考訳(メタデータ) (2024-05-09T00:31:59Z) - Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Multilingual training for Software Engineering [0.0]
異なる言語(同じ機能を持つ)の人間が書いたコードとはかなりよく似ていることを示す証拠を提示する。
本稿では,コード要約,コード検索,関数命名の3つのタスクについて検討する。
このデータ拡張アプローチは、さまざまなタスク、言語、マシンラーニングモデルと広く互換性がある。
論文 参考訳(メタデータ) (2021-12-03T17:47:00Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。