論文の概要: EnergyLens: Interpretable Closed-Form Energy Models for Multimodal LLM Inference Serving
- arxiv url: http://arxiv.org/abs/2605.10556v2
- Date: Wed, 13 May 2026 14:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.859971
- Title: EnergyLens: Interpretable Closed-Form Energy Models for Multimodal LLM Inference Serving
- Title(参考訳): EnergyLens:マルチモーダルLLM推論のための解釈可能なクローズドフォームエネルギーモデル
- Authors: Vittorio Palladino, Gianluca Palermo, Michael E. Papka, Zhiling Lan,
- Abstract要約: 既存のアプローチでは、レイテンシをエネルギプロキシとして扱うか、データ不足のブラックボックスサロゲートに依存している。
本稿では,データに対する構造発見ツールとして,シンボル回帰を用いたEnergyLensを提案する。
ブラックボックスサロゲートとは異なり、EnergyLensはテンソルとパイプライン並列性を分離し、デコードエネルギーからプリフィルを分離する。
- 参考スコア(独自算出の注目度): 2.7498981662768536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models span dense, mixture-of-experts, and state-space architectures and are deployed on heterogeneous accelerators under increasingly diverse multimodal workloads, optimising inference energy has become as critical as optimizing latency and throughput. Existing approaches either treat latency as an energy proxy or rely on data-hungry black-box surrogates. Both fail under varying parallelism strategies: latency and energy optima diverge in over 20% of configurations we tested, and black-box surrogates require hundreds of profiling samples to generalize across model families and hardware. We present EnergyLens, which uses symbolic regression as a structure-discovery tool over profiling data to derive a single twelve-parameter closed-form energy model expressed in terms of system properties such as degree of parallelism, batch size, and sequence length. Unlike black-box surrogates, EnergyLens decouples tensor and pipeline parallelism contributions and separates prefill from decode energy, making its predictions physically interpretable and actionable. Fitted from as few as 50 profiling measurements, EnergyLens achieves 88.2% Top-1 configuration selection accuracy across many evaluation scenarios compared to 60.9% for the closest prior analytical baseline, matches the predictive accuracy of ensemble ML methods with 10x fewer profiling samples, and extrapolates reliably to unseen batch sizes and hardware platforms without structural modification, making it a practical, interpretable tool for energy-optimal LLM deployment.
- Abstract(参考訳): 大規模言語モデルは、密集した、エキスパートの混在、およびステートスペースアーキテクチャにまたがり、より多様なマルチモーダルワークロードの下で異種アクセラレータにデプロイされるため、推論エネルギーの最適化は、レイテンシとスループットの最適化と同じくらい重要になっている。
既存のアプローチでは、レイテンシをエネルギプロキシとして扱うか、データ不足のブラックボックスサロゲートに依存している。
レイテンシとエネルギーの最適化は、テストした構成の20%以上で分散しますし、ブラックボックスサロゲートでは、モデルファミリやハードウェアをまたいで一般化するために、数百のプロファイリングサンプルが必要です。
本稿では, 並列度, バッチサイズ, シーケンス長などのシステム特性で表される1つの12パラメータ閉形式エネルギーモデルを, プロファイリングデータ上でのシンボル回帰を構造発見ツールとして利用するEnergyLensを提案する。
ブラックボックスのサロゲートとは異なり、EnergyLensはテンソルとパイプラインの並列性を分離し、プリフィルとデコードエネルギーを分離し、その予測は物理的に解釈可能で動作可能である。
50点までのプロファイリング測定から得られたEnergyLensは、最も近い分析ベースラインの60.9%と比較して、多くの評価シナリオで88.2%のTop-1設定精度を達成し、アンサンブルML法の予測精度を10倍のプロファイリングサンプルと一致させ、構造的な変更なしに未確認のバッチサイズやハードウェアプラットフォームに確実に外挿し、エネルギー最適化LLM展開のための実用的な解釈可能なツールである。
関連論文リスト
- Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Pimp My LLM: Leveraging Variability Modeling to Tune Inference Hyperparameters [0.3186130813218338]
大規模言語モデル(LLM)は、幅広いタスクでますます使われています。
彼らの相当な計算要求は、トレーニングと推論の両方のエネルギー効率と持続可能性に関する懸念を提起する。
最近の研究は、最適化手法を探求し、構成選択がエネルギー消費にどのように影響するかを分析している。
論文 参考訳(メタデータ) (2026-02-06T16:18:22Z) - TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices [0.0]
本稿では,エージェントタスク(機能/ツール/API呼び出し)における小言語モデル(SLM)の有効性について検討する。
本稿では、教師付き微調整(SFT)、パラメータ効率の高い微調整(PEFT)、強化学習(RL)、ハイブリッド手法を含むパラメータ駆動最適化戦略について述べる。
その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を大幅に上回るモデルスケール間での精度差が明らかとなった。
この研究は、エッジデバイス上で、小さな言語モデルが正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
論文 参考訳(メタデータ) (2025-11-27T06:09:54Z) - EPO: Diverse and Realistic Protein Ensemble Generation via Energy Preference Optimization [14.859985641146672]
本稿では,事前学習したタンパク質アンサンブル生成体をエネルギ対応サンプリング器に変換するオンライン改良であるEnergy Preference Optimization (EPO)を提案する。
テトラペプチド、ATLAS、Fast-Foldingベンチマークでは、EPOは多様な物理的に現実的なアンサンブルを生成することに成功した。
論文 参考訳(メタデータ) (2025-11-13T10:25:50Z) - Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。