Fugu-MT 論文翻訳(概要): Parallel Training of GRU Networks with a Multi-Grid Solver for Long Sequences

論文の概要: Parallel Training of GRU Networks with a Multi-Grid Solver for Long Sequences

arxiv url: http://arxiv.org/abs/2203.04738v1
Date: Mon, 7 Mar 2022 11:32:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-11 11:27:18.325359
Title: Parallel Training of GRU Networks with a Multi-Grid Solver for Long Sequences
Title（参考訳）: 長い列のマルチグリッド解法を用いたgrgネットワークの並列学習
Authors: Gordon Euhyun Moon, Eric C. Cyr
Abstract要約: 本稿では,GRU(Gated Recurrent Unit)ネットワークのための並列学習手法を提案する。 MGRITはシーケンスを複数の短いサブシーケンスに分割し、異なるプロセッサ上のサブシーケンスを並列に訓練する。 HMDB51データセットにおいて、各ビデオが画像シーケンスである実験結果から、新しい並列トレーニングスキームがシリアルアプローチよりも最大6.5$times$スピードアップを達成することを示した。
参考スコア（独自算出の注目度）: 1.9798034349981162
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parallelizing Gated Recurrent Unit (GRU) networks is a challenging task, as the training procedure of GRU is inherently sequential. Prior efforts to parallelize GRU have largely focused on conventional parallelization strategies such as data-parallel and model-parallel training algorithms. However, when the given sequences are very long, existing approaches are still inevitably performance limited in terms of training time. In this paper, we present a novel parallel training scheme (called parallel-in-time) for GRU based on a multigrid reduction in time (MGRIT) solver. MGRIT partitions a sequence into multiple shorter sub-sequences and trains the sub-sequences on different processors in parallel. The key to achieving speedup is a hierarchical correction of the hidden state to accelerate end-to-end communication in both the forward and backward propagation phases of gradient descent. Experimental results on the HMDB51 dataset, where each video is an image sequence, demonstrate that the new parallel training scheme achieves up to 6.5$\times$ speedup over a serial approach. As efficiency of our new parallelization strategy is associated with the sequence length, our parallel GRU algorithm achieves significant performance improvement as the sequence length increases.
Abstract（参考訳）: GRU(Gated Recurrent Unit)ネットワークの並列化は、GRUのトレーニング手順が本質的にシーケンシャルであるため、難しい課題である。 GRUを並列化する以前の取り組みは、データ並列やモデル並列トレーニングアルゴリズムといった従来の並列化戦略に重点を置いていた。しかし、与えられたシーケンスが非常に長い場合、既存のアプローチはトレーニング時間に関して必然的にパフォーマンスが制限されている。本稿では,grit(multigrid reduction in time)ソルバに基づくgrgの並列学習方式(parallel-in-time)を提案する。 MGRITはシーケンスを複数の短いサブシーケンスに分割し、異なるプロセッサ上のサブシーケンスを並列に訓練する。速度アップを達成する鍵は、勾配降下の前方および後方伝播位相の両方においてエンドツーエンド通信を加速するための隠れ状態の階層的補正である。各ビデオが画像シーケンスであるhmdb51データセットの実験結果は、新しい並列トレーニングスキームがシリアルアプローチで最大6.5$\times$のスピードアップを達成していることを示している。新しい並列化戦略の効率はシーケンス長に関連し、並列gruアルゴリズムはシーケンス長が増加するにつれて大幅に性能が向上する。

関連論文リスト

FlexSP: Accelerating Large Language Model Training via Flexible Sequence Parallelism [33.23902060961886]
既存のシーケンス並列化法は、均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。 LLMトレーニングコーパスの配列長は,長い尾分布の後に大きく変動することがわかった。この問題に対処する不均一適応列並列化法を提案する。
論文参考訳（メタデータ） (2024-12-02T14:16:03Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
DeepPCR: Parallelizing Sequential Operations in Neural Networks [4.241834259165193]
我々は、ニューラルネットワークの推論とトレーニングを高速化するために、典型的にはシーケンシャルな操作を並列化する新しいアルゴリズムであるDeepPCRを紹介する。 DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。アルゴリズムの理論的に低い複雑性を検証し,高速化のための機構を同定するために,多層パーセプトロンの前方・後方パスの並列化におけるDeepPCRの有効性を検証した。
論文参考訳（メタデータ） (2023-09-28T10:15:30Z)
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。 DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文参考訳（メタデータ） (2023-09-25T20:15:57Z)
Parallelizing non-linear sequential models over the sequence length [7.99707131886133]
我々は,逐次モデルのGPU評価を最大3桁高速化する並列アルゴリズムを開発した。 17k時間サンプルを用いた長期連続分類問題において, Gated Recurrent Unit の有効性について検討した。
論文参考訳（メタデータ） (2023-09-21T16:52:34Z)
Parallel Algorithms Align with Neural Execution [7.535219325248997]
しかし並列アルゴリズムは計算能力を最大限に活用できるため、実行すべきレイヤは少ない。このことは、CLRSフレームワーク上のシーケンシャルなコンポーネントに対して、検索、ソート、および強力な接続されたコンポーネントの並列実装を比較する際に観察されるように、トレーニング時間を劇的に短縮します。
論文参考訳（メタデータ） (2023-07-08T21:28:20Z)
GSplit: Scaling Graph Neural Network Training on Large Graphs via Split-Parallelism [6.3568605707961]
ミニバッチトレーニングは、大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングするために一般的に使用される。本稿では,スプリット・パララリズム(split parallelism)と呼ばれる,ハイブリッド並列型ミニバッチ・トレーニングパラダイムを提案する。分割並列性はDGLやQuiver,P3$といった最先端のミニバッチトレーニングシステムよりも優れています。
論文参考訳（メタデータ） (2023-03-24T03:28:05Z)
Gradient Coding with Dynamic Clustering for Straggler-Tolerant Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文参考訳（メタデータ） (2021-03-01T18:51:29Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)
Fast and Complete: Enabling Complete Neural Network Verification with Rapid and Massively Parallel Incomplete Verifiers [112.23981192818721]
BaB プロセス中に線形計画法 (LP) を置き換えるために, 逆モード線形緩和に基づく解析法 (LiRPA) を提案する。 LPとは異なり、LiRPAを適用すると、より弱い境界が得られ、分割時にサブドメインのコンフリクトをチェックすることもできない。既存のLPベースのアプローチと比較して、桁違いのスピードアップを示す。
論文参考訳（メタデータ） (2020-11-27T16:42:12Z)
Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文参考訳（メタデータ） (2020-11-03T18:52:15Z)
Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文参考訳（メタデータ） (2020-02-10T10:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。