論文の概要: Hardware and Software Platform Inference
- arxiv url: http://arxiv.org/abs/2411.05197v1
- Date: Thu, 07 Nov 2024 21:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:09.708887
- Title: Hardware and Software Platform Inference
- Title(参考訳): ハードウェアとソフトウェアプラットフォーム推論
- Authors: Cheng Zhang, Hanna Foerster, Robert D. Mullins, Yiren Zhao, Ilia Shumailov,
- Abstract要約: textittextbfハードウェアとソフトウェアプラットフォーム推論(HSPI)を導入する。
HSPIは、(ブラックボックス)機械学習モデルの基盤となるGPUアーキテクチャとソフトウェアスタックを特定する。
ランダムな推測精度よりも最大3倍高い結果が得られる。
- 参考スコア(独自算出の注目度): 23.416731481089254
- License:
- Abstract: It is now a common business practice to buy access to large language model (LLM) inference rather than self-host, because of significant upfront hardware infrastructure and energy costs. However, as a buyer, there is no mechanism to verify the authenticity of the advertised service including the serving hardware platform, e.g. that it is actually being served using an NVIDIA H100. Furthermore, there are reports suggesting that model providers may deliver models that differ slightly from the advertised ones, often to make them run on less expensive hardware. That way, a client pays premium for a capable model access on more expensive hardware, yet ends up being served by a (potentially less capable) cheaper model on cheaper hardware. In this paper we introduce \textit{\textbf{hardware and software platform inference (HSPI)}} -- a method for identifying the underlying \GPU{} architecture and software stack of a (black-box) machine learning model solely based on its input-output behavior. Our method leverages the inherent differences of various \GPU{} architectures and compilers to distinguish between different \GPU{} types and software stacks. By analyzing the numerical patterns in the model's outputs, we propose a classification framework capable of accurately identifying the \GPU{} used for model inference as well as the underlying software configuration. Our findings demonstrate the feasibility of inferring \GPU{} type from black-box models. We evaluate HSPI against models served on different real hardware and find that in a white-box setting we can distinguish between different \GPU{}s with between $83.9\%$ and $100\%$ accuracy. Even in a black-box setting we are able to achieve results that are up to three times higher than random guess accuracy.
- Abstract(参考訳): 現在、ハードウェアインフラとエネルギーコストがかなり高いため、セルフホストではなく、大規模言語モデル(LLM)推論へのアクセスを購入するのが一般的なビジネスプラクティスである。
しかし、買い手としては、実際にNVIDIA H100を使用して提供されているような、サービス提供ハードウェアプラットフォームを含む広告サービスの信頼性を検証するメカニズムは存在しない。
さらに、モデルプロバイダが、宣伝されたモデルとわずかに異なるモデルを提供し、しばしば安価なハードウェア上で動作させる可能性があるという報告もある。
これにより、クライアントは、より高価なハードウェアで有能なモデルアクセスにプレミアムを支払うが、安価なハードウェアで(潜在的にあまり有能でない)安価なモデルで提供されることになる。
本稿では,その入力-出力動作のみに基づく(ブラックボックス)機械学習モデルの基盤となる \GPU{} アーキテクチャとソフトウェアスタックを特定する方法である \textit{\textbf{hardware and software platform inference (HSPI)}} を紹介する。
本手法は,様々な \GPU{} アーキテクチャとコンパイラの固有の差異を利用して,異なる \GPU{} 型とソフトウェアスタックを区別する。
モデル出力の数値パターンを解析することにより,モデル推論に使用される \GPU{} と基礎となるソフトウェア構成を正確に識別できる分類フレームワークを提案する。
その結果,ブラックボックスモデルから \GPU{} 型を推定できる可能性が示唆された。
我々は、異なる実ハードウェアで提供されるモデルに対してHSPIを評価し、ホワイトボックス設定では、異なる \GPU{} を 83.9\%$ と 100\%$ の精度で区別できることを発見した。
ブラックボックスの設定であっても、ランダムな推測精度よりも最大3倍高い結果が得られる。
関連論文リスト
- Data-driven Forecasting of Deep Learning Performance on GPUs [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
GPT3モデルのトレーニングとH100での推論の遅延を予測して、198%と19.7%から3.8%に減少する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - Project CGX: Scalable Deep Learning on Commodity GPUs [17.116792714097738]
本稿では,ハードウェアオーバープロビジョンがアルゴリズムとシステム設計によって置き換えられるかを検討する。
本稿では,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。
このフレームワークは、コンシューマグレードのマルチGPUシステムから通信ボトルネックを取り除くことができる。
論文 参考訳(メタデータ) (2021-11-16T17:00:42Z) - Information-Theoretic Measures of Dataset Difficulty [54.538766940287864]
データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する。
使用可能な情報の欠如として、フレーミングデータセットの難しさを考慮した情報理論的な視点を提案する。
論文 参考訳(メタデータ) (2021-10-16T00:21:42Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。