論文の概要: FlexModel: A Framework for Interpretability of Distributed Large
Language Models
- arxiv url: http://arxiv.org/abs/2312.03140v1
- Date: Tue, 5 Dec 2023 21:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:37:30.758644
- Title: FlexModel: A Framework for Interpretability of Distributed Large
Language Models
- Title(参考訳): FlexModel: 分散大規模言語モデルの解釈可能性のためのフレームワーク
- Authors: Matthew Choi, Muhammad Adil Asif, John Willes and David Emerson
- Abstract要約: マルチGPUとマルチノード構成に分散したモデルを扱うための,合理化されたインターフェースを提供するソフトウェアパッケージであるFlexModelを紹介する。
このライブラリは既存のモデル配布ライブラリと互換性があり、PyTorchモデルをカプセル化している。
ユーザ登録可能なHookFunctionを公開して,分散モデル内部との直接的なインタラクションを容易にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growth of large language models, now incorporating billions of
parameters, the hardware prerequisites for their training and deployment have
seen a corresponding increase. Although existing tools facilitate model
parallelization and distributed training, deeper model interactions, crucial
for interpretability and responsible AI techniques, still demand thorough
knowledge of distributed computing. This often hinders contributions from
researchers with machine learning expertise but limited distributed computing
background. Addressing this challenge, we present FlexModel, a software package
providing a streamlined interface for engaging with models distributed across
multi-GPU and multi-node configurations. The library is compatible with
existing model distribution libraries and encapsulates PyTorch models. It
exposes user-registerable HookFunctions to facilitate straightforward
interaction with distributed model internals, bridging the gap between
distributed and single-device model paradigms. Primarily, FlexModel enhances
accessibility by democratizing model interactions and promotes more inclusive
research in the domain of large-scale neural networks. The package is found at
https://github.com/VectorInstitute/flex_model.
- Abstract(参考訳): 数十億のパラメータを取り入れた大規模言語モデルの成長に伴い、トレーニングとデプロイメントのためのハードウェアの前提条件は、それに対応している。
既存のツールはモデルの並列化と分散トレーニングを促進するが、解釈可能性と責任あるAI技術にとって不可欠なモデルインタラクションは、依然として分散コンピューティングの詳細な知識を必要とする。
これはしばしば、機械学習の専門知識を持つ研究者の貢献を妨げるが、分散コンピューティングのバックグラウンドは限られている。
マルチgpuおよびマルチノード構成に分散したモデルを扱うための、合理化されたインターフェースを提供するソフトウェアパッケージであるflexmodelを提案する。
このライブラリは既存のモデル配布ライブラリと互換性があり、pytorchモデルをカプセル化する。
ユーザ登録可能なフック関数を公開し、分散モデル内部とのインタラクションを容易にし、分散モデルと単一デバイスモデルパラダイムのギャップを埋める。
主にFlexModelは、モデルインタラクションの民主化によるアクセシビリティの向上と、大規模ニューラルネットワークの領域におけるより包括的な研究を促進する。
パッケージはhttps://github.com/VectorInstitute/flex_modelにある。
関連論文リスト
- Subnetwork-to-go: Elastic Neural Network with Dynamic Training and
Customizable Inference [16.564868336748503]
本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。
音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-12-06T12:40:06Z) - AlpaServe: Statistical Multiplexing with Model Parallelism for Deep
Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。
本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文 参考訳(メタデータ) (2023-02-22T21:41:34Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - WrapperFL: A Model Agnostic Plug-in for Industrial Federated Learning [10.909577776094782]
本稿では,WrapperFLと呼ばれるアンサンブル学習にインスパイアされた,シンプルながら実用的なフェデレーション学習プラグインを提案する。
WrapperFLは、既存のモデルの入力および出力インターフェースに、再開発を必要とせずに簡単にアタッチすることで、プラグイン・アンド・プレイ方式で動作する。
論文 参考訳(メタデータ) (2022-06-21T13:59:11Z) - FLHub: a Federated Learning model sharing service [0.7614628596146599]
機械学習モデルの共有サービスとしてフェデレートラーニングハブ(FLHub)を提案する。
FLHubを使えば、GitHubと同じように、他の開発者が開発したモデルをアップロード、ダウンロード、コントリビュートすることができる。
我々は、フォークモデルが既存のモデルよりも速くトレーニングを完了し、各フェデレートラウンドで学習がより高速に進行できることを実証した。
論文 参考訳(メタデータ) (2022-02-14T06:02:55Z) - Amazon SageMaker Model Parallelism: A General and Flexible Framework for
Large Model Training [10.223511922625065]
PyTorchと統合したソフトウェアライブラリであるAmazon SageMakerモデル並列性について紹介する。
モデル並列性やその他のメモリ節約機能を使って、大規模なモデルのトレーニングを容易にする。
GPT-3,RoBERTa,BERT,ニューラルコラボレーティブフィルタの性能評価を行った。
論文 参考訳(メタデータ) (2021-11-10T22:30:21Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文 参考訳(メタデータ) (2020-07-24T22:42:35Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。