Fugu-MT 論文翻訳(概要): Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe

論文の概要: Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe

arxiv url: http://arxiv.org/abs/2401.02088v1
Date: Thu, 4 Jan 2024 06:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 15:57:32.970794
Title: Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe
Title（参考訳）: メモリバランスパイプライン並列性の再評価:bpipe
Authors: Mincong Huang, Chao Wang, Chi Ma, Yineng Zhang, Peng Zhang, Lei Yu
Abstract要約: BPipe技術はGPT-3モデルで有効であることが証明されている。しかし,LLaMAトレーニングでは同様の効果は得られていない。本稿では,BPipeの性能を推定する新しい手法を提案する。
参考スコア（独自算出の注目度）: 11.558755687582853
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pipeline parallelism is an essential technique in the training of large-scale Transformer models. However, it suffers from imbalanced memory consumption, leading to insufficient memory utilization. The BPipe technique was proposed to address this issue and has proven effective in the GPT-3 model. Nevertheless, our experiments have not yielded similar benefits for LLaMA training. Additionally, BPipe only yields negligible benefits for GPT-3 training when applying flash attention. We analyze the underlying causes of the divergent performance of BPipe on GPT-3 and LLaMA. Furthermore, we introduce a novel method to estimate the performance of BPipe.
Abstract（参考訳）: パイプライン並列性は大規模トランスフォーマーモデルのトレーニングにおいて不可欠な技術である。しかし、メモリ消費の不均衡に苦しむため、メモリ使用量が不足する。 BPipe技術はこの問題に対処するために提案され、GPT-3モデルで有効であることが証明された。それにもかかわらず、我々の実験はラマトレーニングに同様の利点を与えていない。加えて、BPipeはフラッシュアテンションを施す場合、GPT-3トレーニングに対して無視できる利益しか得られない。 GPT-3およびLLaMA上でのBPipeの発散性能の根本的な原因を解析した。さらに,BPipeの性能を推定する新しい手法を提案する。

関連論文リスト

The Cost of Avoiding Backpropagation [14.302089415274187]
前向きモード自動微分(FmAD)とゼロ次最適化(ZO)は、バックプロパゲーション(BP)に代わるメモリ効率の良い代替手段として提案されている。本研究は,BP法,FmAD法,ZO法を総合的に比較した。本研究は,FmADとZOの基本的限界を強調し,メモリ制約条件下でのモデルトレーニングにおいて,チェックポイントを用いたBPを最も効果的な戦略として再確認した。
論文参考訳（メタデータ） (2025-06-27T00:47:03Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.71952325015267]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文参考訳（メタデータ） (2024-07-05T14:16:47Z)
Pipeline Parallelism with Controllable Memory [6.135123843073223]
既存のパイプラインスケジュールのほとんどすべてがメモリ非効率であることが示されています。制御可能なアクティベーションメモリを備えた,メモリ効率の良いビルディングブロック群を紹介する。 1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現することができる。
論文参考訳（メタデータ） (2024-05-24T08:54:36Z)
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文参考訳（メタデータ） (2023-11-30T10:40:34Z)
Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文参考訳（メタデータ） (2023-09-01T22:57:20Z)
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文参考訳（メタデータ） (2023-08-28T05:38:43Z)
PipeFisher: Efficient Training of Large Language Models Using Pipelining and Fisher Information Matrices [21.963041375857117]
そこで本研究では,Fisher情報行列に基づく2次最適化手法であるK-FACをバブルに割り当てて収束を加速するPipeFisherを提案する。 BERTベースとラージモデルの第1フェーズ事前トレーニングでは、PipeFisherは1次オーダーのトレーニングと比較して、(シミュレーションされた)トレーニング時間を50-75%に短縮する。
論文参考訳（メタデータ） (2022-11-25T14:16:35Z)
BP-Triplet Net for Unsupervised Domain Adaptation: A Bayesian Perspective [18.718713363976835]
ディープ・メトリック・ラーニング(DML)手法の1つであるトリプルト・ロス(英語版)は、同じクラスの例が異なるクラスの例よりも近い埋め込みを学習することである。ベイズ学習の観点から,教師なしドメイン適応(UDA)に有効なBP-Triplet Lossを提案する。
論文参考訳（メタデータ） (2022-02-19T07:12:57Z)
A Theoretical View of Linear Backpropagation and Its Convergence [55.69505060636719]
バックプロパゲーション(BP)はディープニューラルネットワーク(DNN)の勾配を計算するために広く用いられている最近では、NinBPと呼ばれるBPの線形変種が導入され、ブラックボックス攻撃を行うためのより伝達可能な逆の例が生み出された。本稿では,LinBPのニューラルネットワーク関連学習課題における理論的解析について述べる。
論文参考訳（メタデータ） (2021-12-21T07:18:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。