論文の概要: NNTile: a machine learning framework capable of training extremely large GPT language models on a single node
- arxiv url: http://arxiv.org/abs/2504.13236v1
- Date: Thu, 17 Apr 2025 16:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:44:27.141514
- Title: NNTile: a machine learning framework capable of training extremely large GPT language models on a single node
- Title(参考訳): NNTile: 単一のノード上で非常に大きなGPT言語モデルをトレーニングできる機械学習フレームワーク
- Authors: Aleksandr Mikhalev, Aleksandr Katrutsa, Konstantin Sozykin, Ivan Oseledets,
- Abstract要約: NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。
これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
- 参考スコア(独自算出の注目度): 83.9328245724548
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study presents an NNTile framework for training large deep neural networks in heterogeneous clusters. The NNTile is based on a StarPU library, which implements task-based parallelism and schedules all provided tasks onto all available processing units (CPUs and GPUs). It means that a particular operation, necessary to train a large neural network, can be performed on any of the CPU cores or GPU devices, depending on automatic scheduling decisions. Such an approach shifts the burden of deciding where to compute and when to communicate from a human being to an automatic decision maker, whether a simple greedy heuristic or a complex AI-based software. The performance of the presented tool for training large language models is demonstrated in extensive numerical experiments.
- Abstract(参考訳): 本研究では、異種クラスタにおける大規模ディープニューラルネットワークのトレーニングのためのNNTileフレームワークを提案する。
NNTileはタスクベースの並列処理を実装し、利用可能なすべての処理ユニット(CPUとGPU)にすべてのタスクをスケジュールするStarPUライブラリに基づいている。
これは、大規模なニューラルネットワークをトレーニングするために必要な特定の操作が、自動スケジューリング決定に応じて、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
このようなアプローチは、単純な欲求的ヒューリスティックであれ、複雑なAIベースのソフトウェアであれ、計算の場所と、人間から自動的な意思決定者への通信のタイミングを決定することの負担をシフトさせる。
大規模言語モデルを訓練するための提案ツールの性能は,広範囲な数値実験で実証された。
関連論文リスト
- NEAR: A Training-Free Pre-Estimator of Machine Learning Model Performance [0.0]
本研究では,アクティベーションランク(NEAR)によるゼロコストプロキシテキストネットワーク表現を提案し,トレーニングなしで最適なネットワークを識別する。
このネットワークスコアとNAS-Bench-101とNATS-Bench-SSS/TSSのモデル精度の最先端相関を実証した。
論文 参考訳(メタデータ) (2024-08-16T14:38:14Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - BOLT: An Automated Deep Learning Framework for Training and Deploying
Large-Scale Search and Recommendation Models on Commodity CPU Hardware [28.05159031634185]
BOLTは、標準CPUハードウェア上で大規模な検索とレコメンデーションモデルをトレーニングするための、疎いディープラーニングライブラリである。
製品レコメンデーションやテキスト分類,グラフニューラルネットワーク,パーソナライゼーションなど,さまざまな情報検索タスクにおいてBOLTを評価する。
論文 参考訳(メタデータ) (2023-03-30T22:03:43Z) - OFA$^2$: A Multi-Objective Perspective for the Once-for-All Neural
Architecture Search [79.36688444492405]
once-for-All(OFA)は、異なるリソース制約を持つデバイスのための効率的なアーキテクチャを探索する問題に対処するために設計された、ニューラルネットワーク検索(NAS)フレームワークである。
我々は,探索段階を多目的最適化問題として明示的に考えることにより,効率の追求を一歩進めることを目指している。
論文 参考訳(メタデータ) (2023-03-23T21:30:29Z) - Split-Et-Impera: A Framework for the Design of Distributed Deep Learning
Applications [8.434224141580758]
Split-Et-Imperaは、ディープネットワークの解釈可能性の原則に基づいて、ニューラルネットワークのベストスプリットポイントのセットを決定する。
異なるニューラルネットワーク再構成の迅速な評価のための通信認識シミュレーションを実行する。
これは、アプリケーションのサービス要件の品質と、正確性とレイテンシ時間の観点からのパフォーマンスのベストマッチを示唆している。
論文 参考訳(メタデータ) (2023-03-22T13:00:00Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Reservoir Stack Machines [77.12475691708838]
メモリ拡張ニューラルネットワークは、情報ストレージを必要とするタスクをサポートするために、明示的なメモリを備えたリカレントニューラルネットワークを備える。
本研究では,全ての決定論的文脈自由言語を確実に認識できるモデルである貯水池スタックマシンを導入する。
以上の結果から, 貯水池スタックマシンは, 訓練データよりも長い試験シーケンスでもゼロ誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2021-05-04T16:50:40Z) - Reservoir Memory Machines as Neural Computers [70.5993855765376]
微分可能なニューラルネットワークは、干渉することなく明示的なメモリで人工ニューラルネットワークを拡張する。
我々は、非常に効率的に訓練できるモデルを用いて、微分可能なニューラルネットワークの計算能力を実現する。
論文 参考訳(メタデータ) (2020-09-14T12:01:30Z) - Exposing Hardware Building Blocks to Machine Learning Frameworks [4.56877715768796]
我々は、そのようなニューロンをユニークな関数として補完するトポロジーを設計する方法に焦点をあてる。
我々は、カスタムの空間性と量子化によるニューラルネットワークのトレーニングを支援するライブラリを開発する。
論文 参考訳(メタデータ) (2020-04-10T14:26:00Z) - Neuroevolution of Neural Network Architectures Using CoDeepNEAT and
Keras [0.0]
機械学習プロジェクトに関わる作業の大部分は、与えられた問題を解決するのに最適なタイプのアルゴリズムを定義することである。
与えられた問題に対する最適なネットワークトポロジと設定を見つけることは、ドメインの知識とテストの努力を必要とする課題です。
論文 参考訳(メタデータ) (2020-02-11T19:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。