論文の概要: RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis
- arxiv url: http://arxiv.org/abs/2602.11506v1
- Date: Thu, 12 Feb 2026 03:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.611632
- Title: RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis
- Title(参考訳): RooflineBench: Roofline分析によるオンデバイスLCMのベンチマークフレームワーク
- Authors: Zhen Bi, Xueshu Chen, Luoyang Sun, Yuhang Yao, Qing Shen, Jungang Lou, Cheng Deng,
- Abstract要約: SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。
運用強度レンズ(OI)によるアーキテクチャプリミティブとハードウェア制約を統一する体系的フレームワークを提案する。
推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
- 参考スコア(独自算出の注目度): 53.90240071275054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition toward localized intelligence through Small Language Models (SLMs) has intensified the need for rigorous performance characterization on resource-constrained edge hardware. However, objectively measuring the theoretical performance ceilings of diverse architectures across heterogeneous platforms remains a formidable challenge. In this work, we propose a systematic framework based on the Roofline model that unifies architectural primitives and hardware constraints through the lens of operational intensity (OI). By defining an inference-potential region, we introduce the Relative Inference Potential as a novel metric to compare efficiency differences between Large Language Models (LLMs) on the same hardware substrate. Extensive empirical analysis across diverse compute tiers reveals that variations in performance and OI are significantly influenced by sequence length. We further identify a critical regression in OI as model depth increases. Additionally, our findings highlight an efficiency trap induced by hardware heterogeneity and demonstrate how structural refinements, such as Multi-head Latent Attention (M LA), can effectively unlock latent inference potential across various hardware substrates. These insights provide actionable directions for hardware-software co-design to align neural structures with physical constraints in on-device intelligence. The released code is available in the Appendix C.
- Abstract(参考訳): SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。
しかし、多種多様なプラットフォームにまたがる様々なアーキテクチャの理論的性能天井を客観的に測定することは、非常に難しい課題である。
そこで本研究では,アーキテクチャのプリミティブとハードウェア制約を,運用強度レンズ(OI)を通して統一する,Rooflineモデルに基づく体系的フレームワークを提案する。
推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
多様な計算層にまたがる広範囲な実験解析により、OIとOIのパフォーマンスの変動がシーケンス長に大きく影響していることが判明した。
モデル深度が増大するにつれて、OIにおける臨界回帰がさらに特定される。
さらに,ハードウェアの不均一性によって引き起こされる効率のトラップを強調し,マルチヘッド潜伏注意(MLA)などの構造改善が,様々なハードウェア基板における潜伏推論電位を効果的に解き放つことを実証した。
これらの洞察は、ハードウェアとソフトウェアの共同設計において、デバイス上のインテリジェンスにおける物理的な制約とニューラルネットワーク構造を整合させる実行可能な方向を提供する。
リリースされたコードはAppendix Cで入手できる。
関連論文リスト
- Towards Worst-Case Guarantees with Scale-Aware Interpretability [58.519943565092724]
ニューラルネットワークは、自然データの階層的多スケール構造に従って情報を整理する。
我々は,形式機械と解釈可能性ツールを開発するための統一的な研究課題,即時対応型解釈可能性(enmphscale-aware interpretability)を提案する。
論文 参考訳(メタデータ) (2026-02-05T01:22:31Z) - AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Quantum-Aware Generative AI for Materials Discovery: A Framework for Robust Exploration Beyond DFT Biases [0.0]
材料発見のための量子認識型生成AIフレームワークを提案する。
我々は、低忠実度予測と高忠実度予測の分岐を定量化し、ターゲットとする頑健な能動学習ループを実装した。
以上の結果から,高分散領域における潜在的安定候補の同定に成功し,3~5倍の精度向上が得られた。
論文 参考訳(メタデータ) (2025-12-13T11:17:21Z) - Speed Always Wins: A Survey on Efficient Architectures for Large Language Models [51.817121227562964]
大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。
トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。
従来のトランスフォーマーアーキテクチャは、相当な計算を必要とし、大規模なトレーニングと実践的なデプロイメントに重大な障害を生じさせる。
論文 参考訳(メタデータ) (2025-08-13T14:13:46Z) - ESM: A Framework for Building Effective Surrogate Models for Hardware-Aware Neural Architecture Search [4.9276746621153285]
ハードウェア対応ニューラルアーキテクチャサーチ(NAS)は、リソース制約のあるデバイスに効率的なディープニューラルネットワーク(DNN)を設計するための最も有望なテクニックの1つである。
我々は、異なる種類の代理モデルを研究し、その強みと弱みを強調します。
本稿では,モデル生成パイプラインの異なる段階の全体的なコストを考慮した,信頼性の高いデータセット生成と効率的なモデル生成を実現するための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T22:06:39Z) - Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - Multi-Scale Manifold Alignment for Interpreting Large Language Models: A Unified Information-Geometric Framework [4.935224714809964]
我々は,LLM表現を局所的,中間的,大域的多様体に分解する情報幾何学的フレームワークであるマルチスケールマニフォールドアライメント(MSMA)を提案する。
我々は一貫した階層パターンを観察し、MSMAが複数の推定値の下でアライメントの指標を改善することを発見した。
異なるスケールでの制御された介入は、語彙の多様性、文構造、談話のコヒーレンスに区別され、アーキテクチャに依存した効果をもたらす。
論文 参考訳(メタデータ) (2025-05-24T10:25:58Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。