Fugu-MT 論文翻訳(概要): Data Movement Is All You Need: A Case Study on Optimizing Transformers

論文の概要: Data Movement Is All You Need: A Case Study on Optimizing Transformers

arxiv url: http://arxiv.org/abs/2007.00072v3
Date: Mon, 8 Nov 2021 12:43:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 04:52:29.985741
Title: Data Movement Is All You Need: A Case Study on Optimizing Transformers
Title（参考訳）: データムーブメントは必要なすべて - トランスフォーマーの最適化に関するケーススタディ
Authors: Andrei Ivanov, Nikoli Dryden, Tal Ben-Nun, Shigang Li, Torsten Hoefler
Abstract要約: 本稿では,トランスにおけるデータ移動をグローバルに最適化するためのレシピを提案する。データ移動を最大22.91%削減し、最先端のフレームワークよりも1.30倍のパフォーマンス向上を実現しています。
参考スコア（独自算出の注目度）: 16.62346773613343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers are one of the most important machine learning workloads today. Training one is a very compute-intensive task, often taking days or weeks, and significant attention has been given to optimizing transformers. Despite this, existing implementations do not efficiently utilize GPUs. We find that data movement is the key bottleneck when training. Due to Amdahl's Law and massive improvements in compute performance, training has now become memory-bound. Further, existing frameworks use suboptimal data layouts. Using these insights, we present a recipe for globally optimizing data movement in transformers. We reduce data movement by up to 22.91% and overall achieve a 1.30x performance improvement over state-of-the-art frameworks when training a BERT encoder layer and 1.19x for the entire BERT. Our approach is applicable more broadly to optimizing deep neural networks, and offers insight into how to tackle emerging performance bottlenecks.
Abstract（参考訳）: トランスフォーマーは今日、最も重要な機械学習ワークロードの1つです。トレーニング1は計算集約的なタスクであり、しばしば数日や数週間を要し、トランスフォーマーの最適化に大きな注目を集めている。しかし、既存の実装ではGPUを効率的に利用していない。トレーニングにおいて、データ移動が重要なボトルネックであることが分かっています。 Amdahlの法則と計算性能の大幅な改善により、トレーニングはメモリバウンドになった。さらに、既存のフレームワークは最適なデータレイアウトを使用する。これらの知見を用いて,トランスにおけるデータ移動をグローバルに最適化するためのレシピを提案する。 BERTエンコーダ層をトレーニングする際のデータ移動量を最大22.91%削減し、最先端フレームワークよりも1.30倍の性能向上を実現した。当社のアプローチは、ディープニューラルネットワークの最適化に広く適用でき、新たなパフォーマンスボトルネックに取り組む方法に関する洞察を提供します。

関連論文リスト

Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Efficient Training for Visual Tracking with Deformable Transformer [0.0]
本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
論文参考訳（メタデータ） (2023-09-06T03:07:43Z)
A Survey on Efficient Training of Transformers [72.31868024970674]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文参考訳（メタデータ） (2023-02-02T13:58:18Z)
Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文参考訳（メタデータ） (2021-12-02T17:11:33Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer [63.99222215387881]
本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
論文参考訳（メタデータ） (2021-08-03T09:56:07Z)
When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文参考訳（メタデータ） (2021-06-03T02:08:03Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Training Transformers for Information Security Tasks: A Case Study on Malicious URL Prediction [3.660098145214466]
私たちは、スクラッチからトレーニングされたトランスフォーマーアーキテクチャに基づいて、悪意のある/良性のある予測URLを実装します。従来の自然言語処理(NLP)変換器とは対照的に,このモデルは動作に異なるトレーニングアプローチを必要とする。
論文参考訳（メタデータ） (2020-11-05T18:58:51Z)
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文参考訳（メタデータ） (2020-09-23T16:35:09Z)
Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文参考訳（メタデータ） (2020-04-21T14:19:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。