Fugu-MT 論文翻訳(概要): NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals

論文の概要: NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals

arxiv url: http://arxiv.org/abs/2407.14561v2
Date: Sun, 08 Dec 2024 00:16:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.658393
Title: NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals
Title（参考訳）: NNsightとNDIF:オープンウェイトモデル内部へのアクセスを民主化
Authors: Jaden Fiotto-Kaufman, Alexander R. Loftus, Eric Todd, Jannik Brinkmann, Koyena Pal, Dmitrii Troitskii, Michael Ripa, Adam Belfki, Can Rager, Caden Juang, Aaron Mueller, Samuel Marks, Arnab Sen Sharma, Francesca Lucchetti, Nikhil Prakash, Carla Brodley, Arjun Guha, Jonathan Bell, Byron C. Wallace, David Bau,
Abstract要約: NNsightとNDIFは、非常に大きなニューラルネットワークの科学的研究を可能にするために、タンデムで機能する技術である。 NNsightは、遅延リモート実行を導入するためにPyTorchを拡張したオープンソースのシステムである。 NDIFは、NNsightリクエストを実行するスケーラブルな推論サービスで、GPUリソースと事前トレーニングされたモデルを共有することができる。
参考スコア（独自算出の注目度）: 58.83169560132308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce NNsight and NDIF, technologies that work in tandem to enable scientific study of very large neural networks. NNsight is an open-source system that extends PyTorch to introduce deferred remote execution. NDIF is a scalable inference service that executes NNsight requests, allowing users to share GPU resources and pretrained models. These technologies are enabled by the intervention graph, an architecture developed to decouple experiment design from model runtime. Together, this framework provides transparent and efficient access to the internals of deep neural networks such as very large language models (LLMs) without imposing the cost or complexity of hosting customized models individually. We conduct a quantitative survey of the machine learning literature that reveals a growing gap in the study of the internals of large-scale AI. We demonstrate the design and use of our framework to address this gap by enabling a range of research methods on huge models. Finally, we conduct benchmarks to compare performance with previous approaches. Code documentation, and materials are available at https://nnsight.net/.
Abstract（参考訳）: NNsightとNDIFは、非常に大きなニューラルネットワークの科学的研究を可能にするために、タンデムで機能する技術である。 NNsightは、遅延リモート実行を導入するためにPyTorchを拡張したオープンソースのシステムである。 NDIFは、NNsightリクエストを実行するスケーラブルな推論サービスで、GPUリソースと事前トレーニングされたモデルを共有することができる。これらの技術は、モデルランタイムから実験設計を分離するために開発されたアーキテクチャである介入グラフによって実現されている。このフレームワークは、カスタマイズされたモデルを個別にホストするコストや複雑さを犠牲にすることなく、非常に大きな言語モデル(LLM)のようなディープニューラルネットワークの内部に透過的で効率的なアクセスを提供する。我々は、大規模AIの内部研究におけるギャップの増大を示す機械学習文献を定量的に調査する。我々は,このギャップに対処するためのフレームワークの設計と利用を,大規模モデルにおける様々な研究手法によって実証する。最後に、ベンチマークを行い、パフォーマンスを以前のアプローチと比較する。コードドキュメンテーションと資料はhttps://nnsight.net/.com/で公開されている。

関連論文リスト

NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文参考訳（メタデータ） (2024-06-14T13:12:07Z)
pyvene: A Library for Understanding and Improving PyTorch Models via Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文参考訳（メタデータ） (2024-03-12T16:46:54Z)
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。 DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文参考訳（メタデータ） (2024-02-16T00:10:26Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
ModelScope-Agent: Building Your Customizable Agent System with Open-source Large Language Models [74.64651681052628]
本稿では,オープンソースのLCMをコントローラとする実世界のアプリケーションのためのカスタマイズ可能なエージェントフレームワークであるModelScope-Agentを紹介する。ユーザフレンドリーなシステムライブラリを提供し、カスタマイズ可能なエンジン設計により、複数のオープンソースLLMでモデルトレーニングをサポートする。ツール使用データ収集、ツール検索、ツール登録、メモリ制御、カスタマイズされたモデルトレーニング、評価にまたがる包括的なフレームワークが提案されている。
論文参考訳（メタデータ） (2023-09-02T16:50:30Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
NAR-Former: Neural Architecture Representation Learning towards Holistic Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文参考訳（メタデータ） (2022-11-15T10:15:21Z)
Comparison Analysis of Traditional Machine Learning and Deep Learning Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文参考訳（メタデータ） (2022-04-11T11:34:43Z)
CondenseNeXt: An Ultra-Efficient Deep Neural Network for Embedded Systems [0.0]
畳み込みニューラルネットワーク(英: Convolutional Neural Network, CNN)は、画像センサが捉えた視覚画像の分析に広く用いられているディープニューラルネットワーク(DNN)のクラスである。本稿では,組込みシステム上でのリアルタイム推論のために,既存のCNNアーキテクチャの性能を改善するために,深層畳み込みニューラルネットワークアーキテクチャの新しい変種を提案する。
論文参考訳（メタデータ） (2021-12-01T18:20:52Z)
Efficient Neural Architecture Search with Performance Prediction [0.0]
ニューラルアーキテクチャ検索を使用して、目前にあるタスクに最適なネットワークアーキテクチャを見つけます。既存のNASアルゴリズムは、スクラッチから完全にトレーニングすることで、新しいアーキテクチャの適合性を評価する。サンプルアーキテクチャの評価を高速化するために,エンドツーエンドのオフライン性能予測器を提案する。
論文参考訳（メタデータ） (2021-08-04T05:44:16Z)
DGL-LifeSci: An Open-Source Toolkit for Deep Learning on Graphs in Life Science [5.3825788156200565]
DGL-LifeSciは,生命科学におけるグラフの深層学習のためのオープンソースパッケージである。 DGL-LifeSciはRDKit、PyTorch、Deep Graph Libraryをベースにしたピソンツールキットである。これは、分子特性予測、反応予測、分子生成のためのカスタムデータセットに基づくGNNベースのモデリングを可能にする。
論文参考訳（メタデータ） (2021-06-27T13:27:47Z)
Understanding Neural Code Intelligence Through Program Simplification [3.9704927572880253]
コードインテリジェンスシステムにおけるモデルに対する重要な入力特徴を特定するためのモデルに依存しないアプローチを提案する。当社のアプローチであるSIVANDでは,CIモデルの入力プログラムのサイズを縮小する単純化手法を採用しています。 SIVANDの抽出した特徴は、ニューラルCIシステムの予測と学習行動を理解するのに役立つと信じている。
論文参考訳（メタデータ） (2021-06-07T05:44:29Z)
PyHealth: A Python Library for Health Predictive Models [53.848478115284195]
PyHealthは、医療データ上で様々な予測モデルを開発するためのオープンソースのPythonツールボックスである。データ前処理モジュールにより、複雑なヘルスケアデータセットを機械学習フレンドリーなフォーマットに変換できます。予測モデリングモジュールは、確立されたアンサンブルツリーとディープニューラルネットワークベースのアプローチを含む30以上の機械学習モデルを提供します。
論文参考訳（メタデータ） (2021-01-11T22:02:08Z)
Minimum Viable Model Estimates for Machine Learning Projects [0.0]
本稿では,予測モデルの最小要求性能特性を推定する手法を提案する。この技術はオープンソースアプリケーションMinViMEに実装されている。
論文参考訳（メタデータ） (2021-01-02T01:01:20Z)
Direct Federated Neural Architecture Search [0.0]
本稿では,ハードウェアに依存せず,計算的に軽量な直接フェデレーションNASと,準備の整ったニューラルネットワークモデルを探すためのワンステージ手法を提案する。以上の結果から, 従来技術の精度向上を図りながら, 資源消費の大幅な削減を図った。
論文参考訳（メタデータ） (2020-10-13T08:11:35Z)
Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文参考訳（メタデータ） (2020-02-22T14:38:11Z)
PHOTONAI -- A Python API for Rapid Machine Learning Model Development [2.414341608751139]
PHOTONAIは、機械学習モデル開発の簡素化と高速化を目的とした、ハイレベルなPython APIである。これは統一フレームワークとして機能し、ユーザーは異なるツールボックスからのアルゴリズムをカスタムのアルゴリズムシーケンスに簡単にアクセスし、組み合わせることができる。
論文参考訳（メタデータ） (2020-02-13T10:33:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。