論文の概要: Fast Training of NMT Model with Data Sorting
- arxiv url: http://arxiv.org/abs/2308.08153v1
- Date: Wed, 16 Aug 2023 05:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 14:55:27.554927
- Title: Fast Training of NMT Model with Data Sorting
- Title(参考訳): データソーティングによるNMTモデルの高速訓練
- Authors: Daniela N. Rim, Kimera Richard, Heeyoul Choi
- Abstract要約: Transformerモデルはニューラルマシン翻訳などの自然言語処理タスクに革命をもたらした。
改善の潜在的領域の1つは、Transformerが計算した空のトークンの研究に対処し、後に破棄することである。
本稿では,翻訳前の文長に基づいて文対をソートするアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer model has revolutionized Natural Language Processing tasks
such as Neural Machine Translation, and many efforts have been made to study
the Transformer architecture, which increased its efficiency and accuracy. One
potential area for improvement is to address the computation of empty tokens
that the Transformer computes only to discard them later, leading to an
unnecessary computational burden. To tackle this, we propose an algorithm that
sorts translation sentence pairs based on their length before batching,
minimizing the waste of computing power. Since the amount of sorting could
violate the independent and identically distributed (i.i.d) data assumption, we
sort the data partially. In experiments, we apply the proposed method to
English-Korean and English-Luganda language pairs for machine translation and
show that there are gains in computational time while maintaining the
performance. Our method is independent of architectures, so that it can be
easily integrated into any training process with flexible data lengths.
- Abstract(参考訳): Transformerモデルは、Neural Machine Translationのような自然言語処理タスクに革命をもたらし、Transformerアーキテクチャの研究に多くの取り組みが行われ、その効率と精度が向上した。
改善すべき1つの潜在的な領域は、トランスフォーマーが計算した空のトークンを後で捨てるだけで、不要な計算負荷を発生させる。
そこで本研究では, 翻訳文対をバッチ処理前の長さに基づいて分類し, 計算能力の無駄を最小限に抑えるアルゴリズムを提案する。
ソート量が独立かつ同一の分散(i.i.d)データ仮定に違反する可能性があるため、データを部分的にソートする。
実験では,提案手法を英語・韓国語・英語・ルガンダ語対に機械翻訳に適用し,性能を維持しながら計算時間の増加を示す。
本手法はアーキテクチャに依存しないため,柔軟性のあるデータ長を持つ任意のトレーニングプロセスに容易に統合できる。
関連論文リスト
- Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - No Train No Gain: Revisiting Efficient Training Algorithms For
Transformer-based Language Models [31.080446886440757]
本稿では、動的アーキテクチャ(レイヤの積み重ね、ドロップ)、バッチ選択(選択的バックプロップ、ROH損失)、効率的なレイヤ(Lion, Sophia)の3つのカテゴリを再検討する。
トレーニング,検証,ダウンストリームのゲインが,完全に遅延した学習率のベースラインに比べて消失していることが分かりました。
我々は、全ての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることで、任意の計算でマシンを実行できる評価プロトコルを定義した。
論文 参考訳(メタデータ) (2023-07-12T20:10:14Z) - On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文 参考訳(メタデータ) (2022-05-15T16:23:30Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Lexically Constrained Neural Machine Translation with Levenshtein
Transformer [8.831954614241234]
本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。
提案手法は,デコード速度に影響を与えることなく,推論時に用語制約を注入する。
論文 参考訳(メタデータ) (2020-04-27T09:59:27Z) - Controlling Computation versus Quality for Neural Sequence Models [42.525463454120256]
条件付き計算は、推論中にニューラルシーケンスモデル(トランスフォーマー)をより効率的かつ計算に適応させる。
i)WMT英仏訳と(ii)教師なし表現学習(BERT)の2つの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-02-17T17:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。