Fugu-MT 論文翻訳(概要): Improve Machine Learning carbon footprint using Parquet dataset format and Mixed Precision training for regression models -- Part II

論文の概要: Improve Machine Learning carbon footprint using Parquet dataset format and Mixed Precision training for regression models -- Part II

arxiv url: http://arxiv.org/abs/2409.11071v2
Date: Fri, 20 Sep 2024 08:54:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-23 13:03:05.997966
Title: Improve Machine Learning carbon footprint using Parquet dataset format and Mixed Precision training for regression models -- Part II
Title（参考訳）: Parquetデータセットフォーマットと回帰モデルの混合精度トレーニングによる機械学習カーボンフットプリントの改善 -その2-
Authors: Andrew Antonopoulos,
Abstract要約: この論文では、回帰MLモデルをトレーニングしながら、Comma-Separated-Values(CSV)とデータセットフォーマットを使用した消費電力を、デフォルトの浮動小数点(32bit)とNvidiaの混合精度(16bitと32bit)と比較した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This is the 2nd part of the dissertation for my master degree and compared the power consumption using the Comma-Separated-Values (CSV) and parquet dataset format with the default floating point (32bit) and Nvidia mixed precision (16bit and 32bit) while training a regression ML model. The same custom PC as per the 1st part, which was dedicated to the classification testing and analysis, was built to perform the experiments, and different ML hyper-parameters, such as batch size, neurons, and epochs, were chosen to build Deep Neural Networks (DNN). A benchmarking test with default hyper-parameter values for the DNN was used as a reference, while the experiments used a combination of different settings. The results were recorded in Excel, and descriptive statistics were chosen to calculate the mean between the groups and compare them using graphs and tables. The outcome was positive when using mixed precision combined with specific hyper-parameters. Compared to the benchmarking, optimising the regression models reduced the power consumption between 7 and 11 Watts. The regression results show that while mixed precision can help improve power consumption, we must carefully consider the hyper-parameters. A high number of batch sizes and neurons will negatively affect power consumption. However, this research required inferential statistics, specifically ANOVA and T-test, to compare the relationship between the means. The results reported no statistical significance between the means in the regression tests and accepted H0. Therefore, choosing different ML techniques and the Parquet dataset format will not improve the computational power consumption and the overall ML carbon footprint. However, a more extensive implementation with a cluster of GPUs can increase the sample size significantly, as it is an essential factor and can change the outcome of the statistical analysis.
Abstract（参考訳）: これは私の修士論文の2番目の部分であり、回帰MLモデルをトレーニングしながら、Comma-Separated-Values(CSV)とparquetデータセットフォーマットをデフォルトの浮動小数点(32bit)とNvidia混合精度(16bit、32bit)と比較します。分類テストと分析に特化した第1部と同じカスタムPCが実験のために構築され、バッチサイズ、ニューロン、エポックなどの異なるMLハイパーパラメータがDeep Neural Networks (DNN)を構築するために選ばれた。 DNNのデフォルトのハイパーパラメータ値によるベンチマークテストが参照として使用され、実験では異なる設定の組み合わせが使用された。結果はExcelに記録され、グループ間の平均値を計算し、グラフとテーブルを用いて比較するために記述統計が選択された。その結果, 混合精度と特定のハイパーパラメータを併用した場合, 有意差は認められなかった。ベンチマークと比較すると、回帰モデルの最適化は7ワットから11ワットまでの消費電力を削減した。その結果,混合精度は消費電力の向上に寄与するが,過度パラメータを慎重に検討する必要があることがわかった。多数のバッチサイズとニューロンが電力消費に悪影響を及ぼす。しかし,本研究では,ANOVAとTテストの関係を比較するために,推論統計(特にANOVAとTテスト)を必要とした。その結果, 回帰試験における平均値と受理H0との間に有意な有意な有意差は認められなかった。したがって、異なるML技術とParquetデータセットフォーマットを選択することで、計算消費電力と全体のML炭素フットプリントを改善することはできない。しかし、GPUのクラスタによるより広範な実装は、本質的な要因であり、統計分析の結果を変える可能性があるため、サンプルサイズを著しく増大させることができる。

関連論文リスト

Measuring LLM Sensitivity in Transformer-based Tabular Data Synthesis [0.451520252387513]
トランスフォーマーベースのモデルは、データ品質の点で他の最先端モデルよりも優れている。高い計算コストは、プロサマーハードウェアを持つエンドユーザーには実現不可能な場合があります。 GReaTは、REaLTabFormerよりも低いランタイムを一貫して達成し、最も大きなデータセットでしか実行できない。
論文参考訳（メタデータ） (2025-09-25T05:48:48Z)
Discriminative versus Generative Approaches to Simulation-based Inference [0.19999259391104385]
ディープラーニングにより、未結合かつ高次元パラメータ推定が可能になった。ニューラルシミュレーションに基づく推論(N SBI)における2つのアプローチの比較を行った。直接確率比推定と確率比推定の両方が、妥当な不確実性を持つパラメータを効果的に抽出できることが判明した。
論文参考訳（メタデータ） (2025-03-11T01:38:54Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Electricity Price Prediction Using Multi-Kernel Gaussian Process Regression Combined with Kernel-Based Support Vector Regression [0.0]
本稿では,ドイツの電力価格を予測するためのハイブリッドモデルを提案する。このアルゴリズムはガウス過程回帰(GPR)とサポート回帰ベクトル(SVR)を組み合わせたものである。
論文参考訳（メタデータ） (2024-11-28T10:32:50Z)
Improve Machine Learning carbon footprint using Nvidia GPU and Mixed Precision training for classification models -- Part I [0.0]
この論文は、分類MLモデルをトレーニングしながら、デフォルトの浮動小数点(32bit)とNvidiaの混合精度(16bitと32bit)を用いた消費電力を比較する。
論文参考訳（メタデータ） (2024-09-12T08:59:53Z)
Be aware of overfitting by hyperparameter optimization! [0.0]
ハイパーパラメータ最適化が必ずしも良いモデルをもたらすとは限らないことを示し、おそらく同じ統計測度を使用する場合の過度な適合が原因である。我々はまた、トランスフォーマーCNNと呼ばれる笑顔の自然言語処理に基づく表現学習手法を追加することで、過去の分析を拡張した。この結果から,トランスフォーマーCNNは,28対比較中26対比較において,グラフベースの手法よりも優れた結果を示した。
論文参考訳（メタデータ） (2024-07-30T12:45:05Z)
Target Variable Engineering [0.0]
数値的対象を予測するために訓練された回帰モデルの予測性能と、2項化対象を予測するために訓練された分類器を比較した。回帰は最適性能に収束するためには、はるかに多くの計算作業を必要とする。
論文参考訳（メタデータ） (2023-10-13T23:12:21Z)
Stabilizing Subject Transfer in EEG Classification with Divergence Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文参考訳（メタデータ） (2023-10-12T23:06:52Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文参考訳（メタデータ） (2023-09-13T10:40:41Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文参考訳（メタデータ） (2022-02-06T20:07:35Z)
Newer is not always better: Rethinking transferability metrics, their peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文参考訳（メタデータ） (2021-10-13T17:24:12Z)
On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。異なる家族間でのモデルランキングの相関はみられない。
論文参考訳（メタデータ） (2020-02-17T20:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。