論文の概要: Intelligence per Watt: Measuring Intelligence Efficiency of Local AI
- arxiv url: http://arxiv.org/abs/2511.07885v1
- Date: Wed, 12 Nov 2025 01:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.523087
- Title: Intelligence per Watt: Measuring Intelligence Efficiency of Local AI
- Title(参考訳): Wattによるインテリジェンス: ローカルAIのインテリジェンス効率の測定
- Authors: Jon Saad-Falcon, Avanika Narayan, Hakki Orhun Akengin, J. Wes Griffin, Herumb Shandilya, Adrian Gamarra Lafuente, Medhya Goel, Rebecca Joseph, Shlok Natarajan, Etash Kumar Guha, Shang Zhu, Ben Athiwaratkun, John Hennessy, Azalia Mirhoseini, Christopher Ré,
- Abstract要約: 大規模言語モデル(LLM)クエリは、主に集中型クラウドインフラストラクチャのフロンティアモデルによって処理される。
小さなLMは、多くのタスクにおけるフロンティアモデルに対する競合的なパフォーマンスを実現しています。
集中インフラからの需要の再分配によるローカル推論は可能か?
本稿では,局所的推論の能力と効率を評価する指標として,1ワット当たりのインテリジェンス(IPW)を提案する。
- 参考スコア(独自算出の注目度): 39.049258055931524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) queries are predominantly processed by frontier models in centralized cloud infrastructure. Rapidly growing demand strains this paradigm, and cloud providers struggle to scale infrastructure at pace. Two advances enable us to rethink this paradigm: small LMs (<=20B active parameters) now achieve competitive performance to frontier models on many tasks, and local accelerators (e.g., Apple M4 Max) run these models at interactive latencies. This raises the question: can local inference viably redistribute demand from centralized infrastructure? Answering this requires measuring whether local LMs can accurately answer real-world queries and whether they can do so efficiently enough to be practical on power-constrained devices (i.e., laptops). We propose intelligence per watt (IPW), task accuracy divided by unit of power, as a metric for assessing capability and efficiency of local inference across model-accelerator pairs. We conduct a large-scale empirical study across 20+ state-of-the-art local LMs, 8 accelerators, and a representative subset of LLM traffic: 1M real-world single-turn chat and reasoning queries. For each query, we measure accuracy, energy, latency, and power. Our analysis reveals $3$ findings. First, local LMs can accurately answer 88.7% of single-turn chat and reasoning queries with accuracy varying by domain. Second, from 2023-2025, IPW improved 5.3x and local query coverage rose from 23.2% to 71.3%. Third, local accelerators achieve at least 1.4x lower IPW than cloud accelerators running identical models, revealing significant headroom for optimization. These findings demonstrate that local inference can meaningfully redistribute demand from centralized infrastructure, with IPW serving as the critical metric for tracking this transition. We release our IPW profiling harness for systematic intelligence-per-watt benchmarking.
- Abstract(参考訳): 大規模言語モデル(LLM)クエリは、主に集中型クラウドインフラストラクチャのフロンティアモデルによって処理される。
需要の急激な増加は、このパラダイムを歪め、クラウドプロバイダは、インフラストラクチャをペースでスケールアップするのに苦労する。
小さいLM(<=20Bのアクティブパラメータ)は、多くのタスクにおけるフロンティアモデルと競合するパフォーマンスを実現し、ローカルアクセラレータ(例えば、Apple M4 Max)は、これらのモデルを対話的なレイテンシで実行します。
ローカル推論は集中インフラからの需要を積極的に再分配できるのか?
これに対する答えは、ローカルなLMが現実世界のクエリに正確に答えられるかどうか、そして電力制約のあるデバイス(つまりラップトップ)で十分な効率で実現できるかどうかを測定する必要がある。
モデル加速器対における局所的推論の能力と効率を評価する指標として,1ワット当たりのインテリジェンス(IPW)を提案する。
我々は,20以上の最先端のローカルLM,8つのアクセラレータ,およびLLMトラフィックの代表的サブセットである1万件以上の実世界のシングルターンチャットと推論クエリを対象に,大規模な実証的研究を行った。
クエリ毎に、正確さ、エネルギー、レイテンシ、パワーを測定します。
分析の結果は3ドルだ。
まず、ローカルなLMは1ターンチャットの88.7%を正確に答え、ドメインごとに精度が変化するクエリを推論する。
第2に、2023年から2025年、IPWは5.3倍改善し、ローカルクエリカバレッジは23.2%から71.3%に増加した。
第3に、ローカルアクセラレータは同一モデルを実行するクラウドアクセラレータよりも少なくとも1.4倍低いIPWを実現し、最適化のための重要なヘッドルームを明らかにしている。
これらの結果から,IPWはこの移行を追尾する重要な指標として機能し,中央集権インフラからの需要を有意に再分配できることが示唆された。
我々は、系統的なインテリジェンス/ワットベンチマークのためのIPWプロファイリングハーネスをリリースする。
関連論文リスト
- Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - DOVA-PATBM: An Intelligent, Adaptive, and Scalable Framework for Optimizing Large-Scale EV Charging Infrastructure [3.74242093516574]
本稿では,単一パイプラインでコンテキストを統一するジオコンピューティングフレームワークであるDOVA-PATBM(Voronoi-oriented, Adaptive, POI-Aware Temporal Behaviour Model)を提案する。
ヘテロジニアスなデータ(中心性、人口、夜間光、POI、フィードライン)を階層的なH3グリッドに方法論する。
ゾーン正規化グラフニューラルネットワークモデルとの交差の重要性を推測し、30kmの半径で少なくとも1つの5ポートのDC高速充電器を保証するボロノイ・テッセルレーションをオーバーレイする。
論文 参考訳(メタデータ) (2025-06-18T09:15:18Z) - Energy-Efficient Deep Learning for Traffic Classification on Microcontrollers [1.3124513975412255]
本稿では,資源限定マイクロコントローラ上でのエネルギー効率の高いトラフィック分類のための実用的なディープラーニング(DL)手法を提案する。
ISCX VPN-Non-VPNデータセット上で96.59%の精度を実現するハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)により最適化された軽量な1D-CNNを開発する。
2つのマイクロコントローラにおける実世界の推論性能を評価する。
論文 参考訳(メタデータ) (2025-06-12T16:10:22Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Edge Computing-Enabled Road Condition Monitoring: System Development and
Evaluation [5.296678854362804]
リアルタイム舗装状態監視は、高速道路の機関にタイムリーかつ正確な情報を提供する。
既存の技術は手動のデータ処理に大きく依存しており、高価であるため、頻繁なネットワークレベルの舗装状態監視のためにスケールするのが困難である。
本研究では,安価なマイクロエレクトロメカニカルシステム(MEMS)センサ,エッジコンピューティング,マイクロコントローラのインターネット接続機能を活用したソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-09T00:55:41Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable
Edge Computing Systems [87.4519172058185]
エッジコンピューティング機能を有するセルフパワー無線ネットワークの効率的なエネルギー分配機構について検討した。
定式化問題を解くために,新しいマルチエージェントメタ強化学習(MAMRL)フレームワークを提案する。
実験の結果、提案されたMAMRLモデルは、再生不可能なエネルギー使用量を最大11%削減し、エネルギーコストを22.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-02-20T04:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。