論文の概要: SOTASTREAM: A Streaming Approach to Machine Translation Training
- arxiv url: http://arxiv.org/abs/2308.07489v1
- Date: Mon, 14 Aug 2023 22:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:27:43.623412
- Title: SOTASTREAM: A Streaming Approach to Machine Translation Training
- Title(参考訳): SOTASTREAM: 機械翻訳教育におけるストリーミングアプローチ
- Authors: Matt Post and Thamme Gowda and Roman Grundkiewicz and Huda Khayrallah
and Rohit Jain and Marcin Junczys-Dowmunt
- Abstract要約: 多くの機械翻訳ツールキットは、生データをトレーナーが直接使用できるテンソル形式に変換するデータ準備ステップを利用する。
本稿では,そのデータ消費からデータ生成を分離する代替手法を提案する。
このアプローチでは、個別の事前処理ステップはなく、データ生成は生のトレーニングデータの置換の無限のストリームを生成する。
- 参考スコア(独自算出の注目度): 13.39347756245191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine translation toolkits make use of a data preparation step wherein
raw data is transformed into a tensor format that can be used directly by the
trainer. This preparation step is increasingly at odds with modern research and
development practices because this process produces a static, unchangeable
version of the training data, making common training-time needs difficult
(e.g., subword sampling), time-consuming (preprocessing with large data can
take days), expensive (e.g., disk space), and cumbersome (managing experiment
combinatorics). We propose an alternative approach that separates the
generation of data from the consumption of that data. In this approach, there
is no separate pre-processing step; data generation produces an infinite stream
of permutations of the raw training data, which the trainer tensorizes and
batches as it is consumed. Additionally, this data stream can be manipulated by
a set of user-definable operators that provide on-the-fly modifications, such
as data normalization, augmentation or filtering. We release an open-source
toolkit, SOTASTREAM, that implements this approach:
https://github.com/marian-nmt/sotastream. We show that it cuts training time,
adds flexibility, reduces experiment management complexity, and reduces disk
space, all without affecting the accuracy of the trained models.
- Abstract(参考訳): 多くの機械翻訳ツールキットは、生データをテンソル形式に変換し、トレーナーが直接使用できるデータ準備ステップを使用している。
このプロセスは、トレーニングデータの静的で変更不能なバージョンを生成し、一般的なトレーニング時間のニーズ(例えば、サブワードサンプリング)、時間消費(大規模なデータによる前処理には数日かかる)、高価な(例えば、ディスクスペース)、そしてカンバーソーム(管理実験コンビネータ)を困難にする。
本稿では,そのデータ消費からデータ生成を分離する代替手法を提案する。
このアプローチでは、別個の前処理ステップはなく、データ生成は、トレーナーがテンソル化して消費する生のトレーニングデータの無限の順列を生成する。
さらに、このデータストリームは、データ正規化、拡張、フィルタリングなどのオンザフライ修正を提供する、一連のユーザ定義可能な演算子によって操作できる。
私たちはこのアプローチを実装したオープンソースツールキットであるsotastreamをリリースします。
トレーニング時間の短縮,柔軟性の向上,実験管理の複雑さの低減,ディスクスペースの削減などが,トレーニングモデルの精度に影響を与えないことを示す。
関連論文リスト
- High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Modyn: Data-Centric Machine Learning Pipeline Orchestration [1.4448995242976572]
Modynは、データ中心のエンドツーエンド機械学習プラットフォームである。
データ中心のエンドツーエンド機械学習プラットフォームであるModynを紹介します。
論文 参考訳(メタデータ) (2023-12-11T09:50:52Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning
over Tabular Data [12.416345241511781]
与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。
実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
論文 参考訳(メタデータ) (2023-08-20T23:40:26Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Data Aggregation for Reducing Training Data in Symbolic Regression [0.0]
本研究は、トレーニングデータを削減する方法と、遺伝的プログラミングのランタイムについても論じる。
K平均クラスタリングとデータビンニングはデータアグリゲーションに使われ、最も単純なデータリダクション法としてランダムサンプリングと比較される。
遺伝的プログラミングの性能は、ランダムな森林と線形回帰と比較される。
論文 参考訳(メタデータ) (2021-08-24T11:58:17Z) - How Well Self-Supervised Pre-Training Performs with Streaming Data? [73.5362286533602]
ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。
ストリーミングデータでどのように連続的な自己監督プリトレーニングが実行されるかは不明です。
ストリーミングデータ内の分散シフトが軽度である場合,逐次自己教師付き学習は共同学習とほぼ同等の性能を示す。
論文 参考訳(メタデータ) (2021-04-25T06:56:48Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。