Fugu-MT 論文翻訳(概要): LLMCO2: Advancing Accurate Carbon Footprint Prediction for LLM Inferences

論文の概要: LLMCO2: Advancing Accurate Carbon Footprint Prediction for LLM Inferences

arxiv url: http://arxiv.org/abs/2410.02950v1
Date: Thu, 3 Oct 2024 19:48:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 04:55:13.108853
Title: LLMCO2: Advancing Accurate Carbon Footprint Prediction for LLM Inferences
Title（参考訳）: LLMCO2:LCM推論のための正確なカーボンフットプリント予測の改善
Authors: Zhenxiao Fu, Fan Chen, Shan Zhou, Haitong Li, Lei Jiang,
Abstract要約: 大規模言語モデル(LLM)の炭素フットプリントの推定は、トレーニングよりも複雑である。 cooはグラフニューラルネットワーク(GNN)ベースのモデルで、LCM推論カーボンフットプリント予測の精度を大幅に向上する。
参考スコア（独自算出の注目度）: 7.137654106298203
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Throughout its lifecycle, a large language model (LLM) generates a substantially larger carbon footprint during inference than training. LLM inference requests vary in batch size, prompt length, and token generation number, while cloud providers employ different GPU types and quantities to meet diverse service-level objectives for accuracy and latency. It is crucial for both users and cloud providers to have a tool that quickly and accurately estimates the carbon impact of LLM inferences based on a combination of inference request and hardware configurations before execution. Estimating the carbon footprint of LLM inferences is more complex than training due to lower and highly variable model FLOPS utilization, rendering previous equation-based models inaccurate. Additionally, existing machine learning (ML) prediction methods either lack accuracy or demand extensive training data, as they inadequately handle the distinct prefill and decode phases, overlook hardware-specific features, and inefficiently sample uncommon inference configurations. We introduce \coo, a graph neural network (GNN)-based model that greatly improves the accuracy of LLM inference carbon footprint predictions compared to previous methods.
Abstract（参考訳）: ライフサイクルを通じて、大規模言語モデル(LLM)は、トレーニングよりも推論中に炭素フットプリントが大幅に大きくなる。 LLM推論要求はバッチサイズ、プロンプト長、トークン生成番号によって異なり、クラウドプロバイダはさまざまなGPUタイプと量を使用して、正確性とレイテンシのさまざまなサービスレベルの目標を満たす。ユーザとクラウドプロバイダの両方が、実行前の推論要求とハードウェア構成の組み合わせに基づいて、LCM推論の炭素の影響を迅速かつ正確に見積もるツールを持つことは、極めて重要です。 LLM推論の炭素フットプリントの推定は、より低く、高度に可変なモデルFLOPSの利用によるトレーニングよりも複雑であり、以前の方程式ベースのモデルは不正確である。さらに、既存の機械学習(ML)予測手法は、異なるプリフィルとデコードフェーズを不適切に処理し、ハードウェア固有の機能を見落とし、非日常的な推論設定を非効率にサンプリングするため、正確さを欠いているか、広範なトレーニングデータを要求するかのいずれかである。グラフニューラルネットワーク(GNN)に基づくモデルである \coo を導入し,従来の手法と比較してLCM推定炭素フットプリント予測の精度を大幅に向上する。

関連論文リスト

PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Large Language Models are Few-shot Multivariate Time Series Classifiers [23.045734479292356]
大規模言語モデル (LLM) は時系列解析に広く応用されている。しかし、数発の分類(すなわち重要な訓練シナリオ)におけるそれらの実用性は過小評価されている。データ不足を克服するために,LLMの学習済み知識を幅広く活用することを目的としている。
論文参考訳（メタデータ） (2025-01-30T03:59:59Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Getting the most out of your tokenizer for pre-training and domain adaptation [26.427537023771844]
トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータは,モデルの生成速度に大きな影響を及ぼすことを示す。我々は,事前学習したLCMのトークン化を専門とし,生成速度と有効コンテキストサイズに大きな利得を得る。
論文参考訳（メタデータ） (2024-02-01T21:49:34Z)
LLMCarbon: Modeling the end-to-end Carbon Footprint of Large Language Models [7.132822974156601]
大きな言語モデル(LLM)の炭素フットプリントは、トレーニング、推論、実験、貯蔵プロセスからの排出を含む重要な関心事である。我々は、高密度およびMoE LLMの両方のために設計されたエンドツーエンドの炭素フットプリントプロジェクションモデルであるtextitcarbを紹介した。
論文参考訳（メタデータ） (2023-09-25T14:50:04Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
Sequential Learning Of Neural Networks for Prequential MDL [18.475866691786695]
ニューラルネットワークを用いた画像分類データセットの事前記述長の計算手法を評価する。計算コストを考慮すると、リハーサルによるオンライン学習は好成績であることがわかった。本稿では,画像分類データセットの集合に対する記述長について述べる。
論文参考訳（メタデータ） (2022-10-14T16:30:23Z)
LEAPER: Modeling Cloud FPGA-based Systems via Transfer Learning [13.565689665335697]
LEAPERは,既存のMLベースモデルを未知の環境に適応させるFPGAベースのシステムに対して,トランスファーラーニングに基づくアプローチを提案する。その結果,5ショットの学習を行うクラウド環境において,移動モデルを用いて予測を行う場合,平均85%の精度が得られた。
論文参考訳（メタデータ） (2022-08-22T21:25:56Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。