論文の概要: Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs
- arxiv url: http://arxiv.org/abs/2602.10377v1
- Date: Tue, 10 Feb 2026 23:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.343945
- Title: Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs
- Title(参考訳): オンデバイスLCMのロホラインモデリングによるハードウェア共設計スケーリング法則
- Authors: Luoyang Sun, Jiwen Jiang, Yifeng Ding, Fengfa Li, Yan Song, Haifeng Zhang, Jian Ying, Lei Ren, Kun Zhan, Wei Chen, Yan Xie, Cheng Deng,
- Abstract要約: 本稿では,モデル精度と推論性能を捉えるハードウェア共同設計法を提案する。
我々はNVIDIA Jetson Orin上で1,942の候補アーキテクチャを実証的に評価した。
我々のアーキテクチャはWikiText-2で19.42%低いパープレキシティを実現している。
- 参考スコア(独自算出の注目度): 49.99513618431772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.
- Abstract(参考訳): VLA(Vision-Language-Action Models)は、物理AIの重要なパラダイムとして登場し、自動運転車、ロボット、スマートスペースにますます普及している。
このようなリソース制約のあるオンデバイス設定では、適切な大規模言語モデル(LLM)のバックボーンを選択することが重要な課題である。
これにより、ハードウェアとソフトウェアの共同設計は、各ハードウェアプラットフォームがカスタマイズされたアーキテクチャソリューションを必要とするオンデバイスLCMデプロイメントのゲーム変更要件となる。
本稿では,モデル精度と推論性能を両立させるハードウェア共同設計法を提案する。
具体的には,建築用ハイパーパラメータの明示的な関数としてトレーニング損失をモデル化し,屋上モデルによる推論遅延を特徴付ける。
我々は、NVIDIA Jetson Orin上で1,942の候補アーキテクチャを実証的に評価し、それぞれ10Bトークンに対して170の選択されたモデルをトレーニングし、アーキテクチャに関連するスケーリング法をトレーニング損失に適合させる。
このスケーリング法則と遅延モデリングを結合することにより、直接精度レイテンシ対応を確立し、ハードウェア共設計LLMのためのParetoフロンティアを同定する。
工業用ハードウェアおよびアプリケーション予算下での実用可能な設計領域を導出し、精度と性能に関する共同最適化としてアーキテクチャ探索をさらに定式化する。
このアプローチはアーキテクチャの選択を数ヶ月から数日に短縮します。
ターゲットハードウェア上のQwen2.5-0.5Bと同じレイテンシで、我々の共同設計したアーキテクチャはWikiText-2で19.42%低いパープレキシティを達成した。
我々の知る限り、これはオンデバイスLCMデプロイメントにおけるハードウェア共同設計のスケーリング法則のための、最初の原則と運用のフレームワークです。
コードと関連するチェックポイントを公開します。
関連論文リスト
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - Neural Architecture Codesign for Fast Physics Applications [0.8692847090818803]
物理応用のためのニューラルネットワーク符号の合理化のためのパイプラインを開発した。
ハードウェア効率の良いモデルを見つけるために,ニューラルネットワーク探索とネットワーク圧縮を2段階のアプローチで実施する。
論文 参考訳(メタデータ) (2025-01-09T19:00:03Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。
LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。
我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文 参考訳(メタデータ) (2024-06-03T18:00:50Z) - Low-Precision Hardware Architectures Meet Recommendation Model Inference
at Scale [11.121380180647769]
本稿では,低精度ハードウェアに参照レコメンデーションモデルを適用するための検索戦略について紹介する。
また,ツールチェーンの設計と開発について論じ,モデルの精度を生涯にわたって維持する。
これらの教訓は,ハードウェアアーキテクチャとソフトウェアエンジニアリングの協調設計を促進するものだ,と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-26T16:42:33Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。