論文の概要: Active Imitation Learning for Thermal- and Kernel-Aware LFM Inference on 3D S-NUCA Many-Cores
- arxiv url: http://arxiv.org/abs/2604.11948v1
- Date: Mon, 13 Apr 2026 18:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.065006
- Title: Active Imitation Learning for Thermal- and Kernel-Aware LFM Inference on 3D S-NUCA Many-Cores
- Title(参考訳): 3次元S-NUCA多コア上での熱・カーネルを考慮したFM推論のための能動模擬学習
- Authors: Yixian Shen, Chaoyao Shen, Jan Deen, George Floros, Andy Pimentel, Anuj Pathania,
- Abstract要約: Large Foundation Model(LFM)推論は、メモリと計算集約の両方で、従来はGPUに依存していた。
AILFMは,実行時のオーバーヘッドを最小限に抑えたOracleのデモから,最適に近い温度対応スケジューリングポリシを学習するスケジューリングフレームワークである。
大規模な実験により、ALIFMは最先端のベースラインを上回り、多様なLFMワークロードにまたがる一般化を実現している。
- 参考スコア(独自算出の注目度): 3.314431209683732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Foundation Model (LFM) inference is both memory- and compute-intensive, traditionally relying on GPUs. However, the limited availability and high cost have motivated the adoption of high-performance general-purpose CPUs, especially emerging 3D-stacked Static Non-Uniform Cache Architecture (3D S-NUCA) systems. These architectures offer enhanced bandwidth and locality but suffer from severe thermal challenges and uneven cache latencies due to 3D Networks-on-Chip (NoC). Optimal management of thread migration and V/f scaling is non-trivial due to LFM kernel diversity and system heterogeneity. Existing thermal management approaches often rely on oversimplified analytical models and lack adaptability. We propose AILFM, an Active Imitation Learning (AIL)-based scheduling framework that learns near-optimal thermal-aware scheduling policies from Oracle demonstrations with minimal run-time overhead. AILFM accounts for both core-level performance heterogeneity and kernel-specific behavior in LFMs to maintain thermal safety while maximizing performance. Extensive experiments show that AILFM outperforms state-of-the-art baselines and generalizes well across diverse LFM workloads.
- Abstract(参考訳): Large Foundation Model(LFM)推論は、メモリと計算集約の両方で、従来はGPUに依存していた。
しかし、可用性の制限と高コストは高性能汎用CPU、特に新しい3Dスタックの静的非統一キャッシュアーキテクチャ(3D S-NUCA)システムの採用を動機付けている。
これらのアーキテクチャは帯域幅と局所性の向上を提供するが、3D Networks-on-Chip (NoC) による厳しい熱的問題と不均一なキャッシュレイテンシに悩まされている。
LFMカーネルの多様性とシステム不均一性のため、スレッドマイグレーションとV/fスケーリングの最適管理は簡単ではない。
既存の熱管理アプローチは、過度に単純化された分析モデルと適応性に頼っていることが多い。
AILFM(Active Imitation Learning:アクティブ・イミテーション・ラーニング)ベースのスケジューリング・フレームワークを提案する。
AILFMは、コアレベルの性能不均一性とLFMにおけるカーネル固有の挙動の両方を考慮し、性能を最大化しながら熱安全性を維持する。
大規模な実験により、ALIFMは最先端のベースラインを上回り、多様なLFMワークロードにまたがる一般化を実現している。
関連論文リスト
- ZeroDVFS: Zero-Shot LLM-Guided Core and Frequency Allocation for Embedded Platforms [7.633618497843279]
マルチコアプラットフォーム上での熱・エネルギーを考慮したスケジューリングのためのモデルベース階層型マルチエージェント強化学習(MARL)フレームワークを提案する。
第一決定レイテンシはテーブルベースのプロファイリングよりも8,300倍高速で、動的組み込みシステムに実用的なデプロイを可能にする。
論文 参考訳(メタデータ) (2026-01-13T02:56:06Z) - Systolic Array-based Accelerator for Structured State-Space Models [1.137896937254823]
State-Space Models (SSM) は非常に長いデータシーケンスをリカレントやトランスフォーマーベースのモデルよりも効率的に処理する。
本稿では,SSMの高速化を目的としたハードウェアアクセラレータEpochCoreを紹介する。
EpochCoreは、GPUと比較してLRAデータセットの平均2000倍のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-07-29T00:01:57Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Intelligent Orchestration of Distributed Large Foundation Model Inference at the Edge [46.1232919707345]
Large Foundation Models (LFMs)は、次世代のEdge AIアプリケーションの新機能をアンロックすることを約束する。
現在の分割推論戦略では、ノード間でLPM層を分割するが、変動するワークロードに適応するようには設計されていない。
本稿では, LFM層を実行時可変変数に配置し, 分割する, 適応型分割推論オーケストレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T15:35:56Z) - RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [59.37279559684668]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。
具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。
注意に基づくリモートセンシング基礎モデルと比較して、メモリ使用量を84%削減し、FLOPを24%削減し、スループットを2.7倍改善する。
論文 参考訳(メタデータ) (2024-11-27T01:43:38Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。