論文の概要: AXLearn: Modular Large Model Training on Heterogeneous Infrastructure
- arxiv url: http://arxiv.org/abs/2507.05411v2
- Date: Wed, 09 Jul 2025 20:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.075626
- Title: AXLearn: Modular Large Model Training on Heterogeneous Infrastructure
- Title(参考訳): AXLearn: 異種インフラストラクチャ上でのモジュール型大規模モデルトレーニング
- Authors: Mark Lee, Tom Gunter, Chang Lan, John Peebles, Hanzhi Zhou, Kelvin Zou, Sneha Bangalore, Chung-Cheng Chiu, Nan Du, Xianzhi Du, Philipp Dufter, Ruixuan Hou, Haoshuo Huang, Dongseong Hwang, Xiang Kong, Jinhao Lei, Tao Lei, Meng Li, Li Li, Jiarui Lu, Zhiyun Lu, Yiping Ma, David Qiu, Vivek Rathod, Senyu Tong, Zhucheng Tu, Jianyu Wang, Yongqiang Wang, Zirui Wang, Floris Weers, Sam Wiseman, Guoli Yin, Bowen Zhang, Xiyou Zhou, Danyang Zhuo, Cheng Leong, Ruoming Pang,
- Abstract要約: AXLearnは大規模ディープラーニングモデルのスケーラブルで高性能なトレーニングを容易にする生産用ディープラーニングシステムである。
他の最先端のディープラーニングシステムと比較して、AXLearnはモジュール性と異種ハードウェアインフラストラクチャのサポートにユニークな重点を置いている。
- 参考スコア(独自算出の注目度): 64.33868455931301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design and implement AXLearn, a production deep learning system that facilitates scalable and high-performance training of large deep learning models. Compared to other state-of-the-art deep learning systems, AXLearn has a unique focus on modularity and support for heterogeneous hardware infrastructure. AXLearn's internal interfaces between software components follow strict encapsulation, allowing different components to be assembled to facilitate rapid model development and experimentation on heterogeneous compute infrastructure. We introduce a novel method of quantifying modularity via Lines-of-Code (LoC)-complexity, which demonstrates how our system maintains constant complexity as we scale the components in the system, compared to linear or quadratic complexity in other systems. This allows integrating features such as Rotary Position Embeddings (RoPE) into AXLearn across hundred of modules with just 10 lines of code, compared to hundreds as required in other systems. At the same time, AXLearn maintains equivalent performance compared to state-of-the-art training systems. Finally, we share our experience in the development and operation of AXLearn.
- Abstract(参考訳): AXLearnは大規模深層学習モデルのスケーラブルで高性能な訓練を容易にする生産型深層学習システムである。
他の最先端のディープラーニングシステムと比較して、AXLearnはモジュール性と異種ハードウェアインフラストラクチャのサポートにユニークな重点を置いている。
ソフトウェアコンポーネント間のAXLearnの内部インターフェースは厳密なカプセル化に従っており、異なるコンポーネントを組み立てることで、不均一な計算インフラ上での迅速なモデル開発と実験を容易にする。
本稿では,Lines-of-Code (LoC)-complexity(Lines-of-Code)-complexity(Lines-of-Code)-complexity)によるモジュラリティの定量化手法を提案する。
これにより、Rotary Position Embeddings (RoPE)のような機能を10行のコードで数百のモジュールにまたがってAXLearnに統合することができる。
同時に、AXLearnは最先端のトレーニングシステムと比較して同等のパフォーマンスを維持している。
最後に、AXLearnの開発と運用での経験を共有します。
関連論文リスト
- XxaCT-NN: Structure Agnostic Multimodal Learning for Materials Science [0.27185251060695437]
元素組成とX線回折(XRD)から直接学習するスケーラブルなフレームワークを提案する。
アーキテクチャは、モダリティ固有のエンコーダとクロスアテンション融合モジュールを統合し、500万サンプルのアレクサンドリアデータセットでトレーニングする。
本研究は, 材料科学の基礎モデルとして, 無構造, 実験的な基礎モデルへの道のりを定めている。
論文 参考訳(メタデータ) (2025-06-27T21:45:56Z) - Adaptive Orchestration of Modular Generative Information Access Systems [59.102816309859584]
将来のモジュラー生成情報アクセスシステムのアーキテクチャは、単に強力なコンポーネントを組み立てるだけでなく、自己組織化システムを実現するだろう、と我々は主張する。
この観点は、IRコミュニティに適応的で自己最適化的で将来的なアーキテクチャを開発するためのモジュラーシステム設計を再考するよう促す。
論文 参考訳(メタデータ) (2025-04-24T11:35:43Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Learning Modular Simulations for Homogeneous Systems [23.355189771765644]
等質多体力学系をモデル化するためのモジュラーシミュレーションフレームワークを提案する。
任意の数の加群を組み合わせることで、様々な結合トポロジーの系をシミュレートすることができる。
我々のモデルは、スクラッチからトレーニングされたモデルと比較して、データ要件やトレーニングの労力が低い新しいシステム構成に移行可能であることを示しています。
論文 参考訳(メタデータ) (2022-10-28T17:48:01Z) - ModLaNets: Learning Generalisable Dynamics via Modularity and Physical
Inductive Bias [14.474273671369584]
モジュラリティと物理的帰納バイアスを有する構造的ニューラルネットワークフレームワークを提案する。
このフレームワークはモジュラリティを用いて各要素のエネルギーをモデル化し、ラグランジュ力学を介して対象の力学系を構築する。
トレーニングデータセットの小さい二重振り子または3体システムのモデリングフレームワークについて検討する。
論文 参考訳(メタデータ) (2022-06-24T14:54:25Z) - A unified software/hardware scalable architecture for brain-inspired
computing based on self-organizing neural models [6.072718806755325]
我々は、Reentrant SOM(ReSOM)モデルにおいて、自己組織化マップ(SOM)とHebbian学習を関連付ける脳誘発ニューラルモデルを開発した。
この研究は、FPGAベースの専用プラットフォーム上でのシミュレーション結果とハードウェア実行の両方を通じて、モデルの分散性とスケーラブル性を実証する。
論文 参考訳(メタデータ) (2022-01-06T22:02:19Z) - XY Neural Networks [0.0]
XYモデルの非線形ブロックに基づいて,機械学習のための複雑な構造を構築する方法を示す。
最後のターゲットは、複雑なタスクを実行できるディープラーニングアーキテクチャを再現することである。
論文 参考訳(メタデータ) (2021-03-31T17:47:10Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。