論文の概要: ZeroDVFS: Zero-Shot LLM-Guided Core and Frequency Allocation for Embedded Platforms
- arxiv url: http://arxiv.org/abs/2601.08166v1
- Date: Tue, 13 Jan 2026 02:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.034091
- Title: ZeroDVFS: Zero-Shot LLM-Guided Core and Frequency Allocation for Embedded Platforms
- Title(参考訳): ZeroDVFS: 組込みプラットフォームのためのゼロショットLDMガイドコアと周波数アロケーション
- Authors: Mohammad Pivezhandi, Mahdi Banisharif, Abusayeed Saifullah, Ali Jannesari,
- Abstract要約: マルチコアプラットフォーム上での熱・エネルギーを考慮したスケジューリングのためのモデルベース階層型マルチエージェント強化学習(MARL)フレームワークを提案する。
第一決定レイテンシはテーブルベースのプロファイリングよりも8,300倍高速で、動的組み込みシステムに実用的なデプロイを可能にする。
- 参考スコア(独自算出の注目度): 7.633618497843279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic voltage and frequency scaling (DVFS) and task-to-core allocation are critical for thermal management and balancing energy and performance in embedded systems. Existing approaches either rely on utilization-based heuristics that overlook stall times, or require extensive offline profiling for table generation, preventing runtime adaptation. We propose a model-based hierarchical multi-agent reinforcement learning (MARL) framework for thermal- and energy-aware scheduling on multi-core platforms. Two collaborative agents decompose the exponential action space, achieving 358ms latency for subsequent decisions. First decisions require 3.5 to 8.0s including one-time LLM feature extraction. An accurate environment model leverages regression techniques to predict thermal dynamics and performance states. When combined with LLM-extracted semantic features, the environment model enables zero-shot deployment for new workloads on trained platforms by generating synthetic training data without requiring workload-specific profiling samples. We introduce LLM-based semantic feature extraction that characterizes OpenMP programs through 13 code-level features without execution. The Dyna-Q-inspired framework integrates direct reinforcement learning with model-based planning, achieving 20x faster convergence than model-free methods. Experiments on BOTS and PolybenchC benchmarks across NVIDIA Jetson TX2, Jetson Orin NX, RubikPi, and Intel Core i7 demonstrate 7.09x better energy efficiency and 4.0x better makespan than Linux ondemand governor. First-decision latency is 8,300x faster than table-based profiling, enabling practical deployment in dynamic embedded systems.
- Abstract(参考訳): 動的電圧と周波数スケーリング(DVFS)とタスク・ツー・コアの割り当ては、組み込みシステムにおける熱管理とエネルギーと性能のバランスに重要である。
既存のアプローチは、ストールタイムを見渡すような利用ベースのヒューリスティックに依存しているか、あるいはテーブル生成のために広範囲なオフラインプロファイリングを必要とし、実行時適応を妨げている。
マルチコアプラットフォーム上での熱・エネルギーを考慮したスケジューリングのためのモデルベース階層型マルチエージェント強化学習(MARL)フレームワークを提案する。
2つの協調エージェントは指数的なアクション空間を分解し、その後の決定のために358msの遅延を達成する。
最初の決定は、1回のLLM特徴抽出を含む3.5から8.0を必要とする。
正確な環境モデルは、レグレッション手法を利用して熱力学と性能状態を予測する。
LLMが抽出したセマンティック機能と組み合わせることで、環境モデルは、ワークロード固有のプロファイリングサンプルを必要とせずに、合成トレーニングデータを生成することで、トレーニングされたプラットフォーム上の新しいワークロードに対するゼロショットデプロイメントを可能にする。
実行せずに13のコードレベル機能を通じてOpenMPプログラムを特徴付けるLLMに基づく意味的特徴抽出を導入する。
Dyna-Qにインスパイアされたフレームワークは、モデルベースプランニングと直接強化学習を統合し、モデルフリーメソッドよりも20倍早く収束する。
NVIDIA Jetson TX2、Jetson Orin NX、RubikPi、Intel Core i7のBOTSおよびPolybenchCベンチマークの実験では、Linuxのオンデマンド管理者よりもエネルギー効率が7.09倍、マインパンが4.0倍向上している。
第一決定レイテンシはテーブルベースのプロファイリングよりも8,300倍高速で、動的組み込みシステムに実用的なデプロイを可能にする。
関連論文リスト
- Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference [2.649774320778185]
我々は、専門家の精度を第一級、動的に管理されるリソースとして扱うランタイムシステムDynaExqを提案する。
我々は,DynaExqが5090とA6000のGPU上で大きなLLMをデプロイし,静的な低精度ベースラインに対して最大4.03ポイントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-19T01:27:54Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-15T15:11:17Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。