Fugu-MT 論文翻訳(概要): Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training

論文の概要: Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training

arxiv url: http://arxiv.org/abs/2406.18820v1
Date: Thu, 27 Jun 2024 01:28:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 15:37:16.157784
Title: Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training
Title（参考訳）: Universal Checkpointing: 大規模分散トレーニングのための効率的かつ柔軟なチェックポイント
Authors: Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang,
Abstract要約: 既存のチェックポイントアプローチは、分散トレーニングには適していないようだ。本稿では,効率的なチェックポイント作成を実現する手法であるユニバーサル・チェックポイントを提案する。本評価は,最先端モデルアーキテクチャにおけるユニバーサルチェックポイントの有効性と汎用性を示す。
参考スコア（独自算出の注目度）: 16.04816181826873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing checkpointing approaches seem ill-suited for distributed training even though hardware limitations make model parallelism, i.e., sharding model state across multiple accelerators, a requirement for model scaling. Consolidating distributed model state into a single checkpoint unacceptably slows down training, and is impractical at extreme scales. Distributed checkpoints, in contrast, are tightly coupled to the model parallelism and hardware configurations of the training run, and thus unusable on different configurations. To address this problem, we propose Universal Checkpointing, a technique that enables efficient checkpoint creation while providing the flexibility of resuming on arbitrary parallelism strategy and hardware configurations. Universal Checkpointing unlocks unprecedented capabilities for large-scale training such as improved resilience to hardware failures through continued training on remaining healthy hardware, and reduced training time through opportunistic exploitation of elastic capacity. The key insight of Universal Checkpointing is the selection of the optimal representation in each phase of the checkpointing life cycle: distributed representation for saving, and consolidated representation for loading. This is achieved using two key mechanisms. First, the universal checkpoint format, which consists of a consolidated representation of each model parameter and metadata for mapping parameter fragments into training ranks of arbitrary model-parallelism configuration. Second, the universal checkpoint language, a simple but powerful specification language for converting distributed checkpoints into the universal checkpoint format. Our evaluation demonstrates the effectiveness and generality of Universal Checkpointing on state-of-the-art model architectures and a wide range of parallelism techniques.
Abstract（参考訳）: 既存のチェックポイントアプローチは、ハードウェアの制限によってモデルの並列性、すなわちモデルのスケーリングの要件である複数のアクセラレーター間でモデルの状態をシャーディングするにもかかわらず、分散トレーニングには適していないように思われる。分散モデル状態の単一チェックポイントへの統合は、トレーニングを許容不可能に遅くし、極端なスケールでは実用的ではない。対照的に、分散チェックポイントはトレーニングランのモデル並列性とハードウェア構成と密接に結びついているので、異なる構成では使用できない。この問題に対処するために,任意の並列性戦略とハードウェア構成に基づいて再見積を行う柔軟性を提供しながら,効率的なチェックポイント作成を可能にする手法であるユニバーサルチェックポイントを提案する。 Universal Checkpointingは、健全なハードウェアの継続的なトレーニングを通じてハードウェア障害に対するレジリエンスを改善し、弾力性の活用を通じてトレーニング時間を短縮するなど、大規模なトレーニングのための前例のない能力をアンロックする。 Universal Checkpointingの重要な洞察は、チェックポイントライフサイクルの各フェーズにおける最適な表現の選択である。これは2つの重要なメカニズムによって達成される。まず、各モデルパラメータの統一表現とパラメータフラグメントのメタデータを任意のモデル並列構成のトレーニングランクにマッピングするユニバーサルチェックポイント形式について述べる。第2に、ユニバーサルチェックポイント言語は、分散チェックポイントをユニバーサルチェックポイント形式に変換するための、シンプルだが強力な仕様言語である。本評価は,最先端のモデルアーキテクチャと多種多様な並列処理技術におけるユニバーサルチェックポイントの有効性と汎用性を示す。

関連論文リスト

CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。 CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文参考訳（メタデータ） (2025-09-24T07:54:01Z)
Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging [2.9761595094633435]
チェックポイントマージ(Checkpoint merging)は、複数のモデルスナップショットを1つの優れたモデルに組み合わせるテクニックである。本稿では,パラメータ効率のよい微調整の文脈におけるチェックポイントのマージについて検討する。本稿では,パラメータの重み付けによるモデルチェックポイントのマージにMWA(Metrics-Weighted Averaging)を提案する。
論文参考訳（メタデータ） (2025-04-23T05:11:21Z)
Learning Compatible Multi-Prize Subnetworks for Asymmetric Retrieval [62.904384887568284]
非対称検索は現実世界の検索システムにおいて典型的なシナリオである。我々は、開発者が任意のキャパシティで互換性のあるワークを生成できる自己互換性のあるPrunable Networkを提案する。
論文参考訳（メタデータ） (2025-04-16T08:59:47Z)
Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T23:02:26Z)
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs [48.95875673503714]
多くのタスクで訓練された"ジェネラリスト"モデルをマージすることを研究する。提案アルゴリズムは,各チェックポイントの重みを線形結合で調整し,最適モデルを生成する。良いマージは、ほとんどすべてのチェックポイントとゼロでない重みを含む傾向があり、一見して悪い初期チェックポイントでさえ、良い最終マージに寄与することを示している。
論文参考訳（メタデータ） (2024-12-05T13:12:51Z)
Self-Supervised Any-Point Tracking by Contrastive Random Walks [17.50529887238381]
我々はグローバルマッチング変換器を訓練し、コントラッシブなランダムウォークを通してビデオを通してサイクル整合性のあるトラックを見つける。提案手法はTapVidベンチマークで高い性能を達成し,従来の自己教師付きトラッキング手法よりも優れていた。
論文参考訳（メタデータ） (2024-09-24T17:59:56Z)
MoC-System: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training [4.4345088842995395]
本研究では,分散学習システムで発生する多数のチェックポイントシャードをオーケストレーションするMixture-of-Checkpoint System (MoC-System)を提案する。 MoC-Systemは、新しい部分エキスパートチェックポイント(PEC)機構を備えており、これはアルゴリズムシステムの共同設計であり、専門家の選ばれたサブセットを戦略的に保存する。 We build MoC-System on the Megatron-DeepSpeed framework, achieve a 98.9% down of overhead for each checkpointing process。
論文参考訳（メタデータ） (2024-08-08T08:40:15Z)
ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development [9.13331802151585]
ByteCheckpoint は大規模 LFM トレーニングのための産業レベルのチェックポイントシステムである。 ByteCheckpoint はチェックポイントストールを著しく減少させ、平均54.20倍の減少を達成する。 ByteCheckpointは、保存時間とロード時間を最大9.96倍と8.80倍に改善した。
論文参考訳（メタデータ） (2024-07-29T16:18:20Z)
Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文参考訳（メタデータ） (2024-06-11T01:16:10Z)
ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。 atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文参考訳（メタデータ） (2024-03-15T17:43:43Z)
Submodel Partitioning in Hierarchical Federated Learning: Algorithm Design and Convergence Analysis [15.311309249848739]
階層学習(FL)は、従来の「星のトポロジー」アーキテクチャに基づく連合学習(FL)よりも有望なスケーラビリティを実証している。本稿では,IoT(Internet of Things)の独立したサブトレーニングを提案する。 HISTの背景にある主要なアイデアは、モデル計算のグローバルバージョンであり、グローバルモデルを各ラウンドの非結合サブモデルに分割し、異なるセルに分散する。
論文参考訳（メタデータ） (2023-10-27T04:42:59Z)
DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。 DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文参考訳（メタデータ） (2023-06-28T16:07:36Z)
TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文参考訳（メタデータ） (2023-06-14T17:07:51Z)
Efficient Implementation of a Multi-Layer Gradient-Free Online-Trainable Spiking Neural Network on FPGA [0.31498833540989407]
ODESAは、グラデーションを使わずに、エンド・ツー・エンドの多層オンラインローカル教師ありトレーニングを行う最初のネットワークである。本研究は,ネットワークアーキテクチャと重みとしきい値のオンライントレーニングを,大規模ハードウェア上で効率的に実施可能であることを示す。
論文参考訳（メタデータ） (2023-05-31T00:34:15Z)
Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging [60.79382212029304]
超多言語言語モデルはゼロショット (ZS-XLT) と少数ショット (FS-XLT) の言語間転送において強い性能を示している。本稿では,タスクの微調整中に異なるチェックポイント(モデルスナップショット)を平均化する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2023-05-26T11:24:32Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
TAPAS: Fast and Automatic Derivation of Tensor Parallel Strategies for Large Neural Networks [27.634123904734615]
我々はTAPASという自動並列処理フレームワークを構築し、冗長な探索作業を排除した。 TAPASは、これらのユニークな部分構造を識別することによって、探索空間を効率的に折り畳む分割線形アプローチを採用している。評価の結果,TAPASは最先端の自動並列処理フレームワークを最大160倍の高速化を実現している。
論文参考訳（メタデータ） (2023-02-01T05:22:28Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文参考訳（メタデータ） (2021-11-09T21:32:51Z)
On Model Calibration for Long-Tailed Object Detection and Instance Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文参考訳（メタデータ） (2021-07-05T17:57:20Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)
Check-N-Run: A Checkpointing System for Training Deep Learning Recommendation Models [5.604501524927757]
我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。 Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
論文参考訳（メタデータ） (2020-10-17T00:45:55Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)
A Linear Algebraic Approach to Model Parallelism in Deep Learning [0.0]
ネットワークのサイズと複雑さが大きくなるにつれて、大規模クラスタコンピューティング環境でのディープニューラルネットワーク(DNN)のトレーニングがますます必要になる。深層学習における並列性をモデル化するための線形代数的手法を提案し,DNNにおけるテンソルの並列分布を実現する。本研究では,これらの並列プリミティブを用いて分散DNN層を構築し,PyTorchおよびMPIベースの分散ディープラーニングツールキットであるDistDLを用いて分散DNNを構築し,訓練することにより,それらのアプリケーションを実演する。
論文参考訳（メタデータ） (2020-06-04T19:38:05Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。