論文の概要: Are Large Language Models Economically Viable for Industry Deployment?
- arxiv url: http://arxiv.org/abs/2604.19342v1
- Date: Tue, 21 Apr 2026 11:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.737166
- Title: Are Large Language Models Economically Viable for Industry Deployment?
- Title(参考訳): 大規模言語モデルは産業展開に経済的に有効か?
- Authors: Abdullah Mohammad, Sushant Kumar Ray, Pushkar Arora, Rafiq Ali, Ebad Shabbir, Gautam Siddharth Kashyap, Jiechao Gao, Usman Naseem,
- Abstract要約: 大規模言語モデル(LLMs)によって駆動されるジェネレーティブAIは、医療決定のサポート、財務分析、企業検索、会話自動化といった業界にますます普及している。
しかし、一般的な評価パイプラインは精度中心であり、デプロイメント評価ギャップを形成します。
- 参考スコア(独自算出の注目度): 15.537777029587366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI-powered by Large Language Models (LLMs)-is increasingly deployed in industry across healthcare decision support, financial analytics, enterprise retrieval, and conversational automation, where reliability, efficiency, and cost control are critical. In such settings, models must satisfy strict constraints on energy, latency, and hardware utilization-not accuracy alone. Yet prevailing evaluation pipelines remain accuracy-centric, creating a Deployment-Evaluation Gap-the absence of operational and economic criteria in model assessment. To address this gap, we present EDGE-EVAL-a industry-oriented benchmarking framework that evaluates LLMs across their full lifecycle on legacy NVIDIA Tesla T4 GPUs. Benchmarking LLaMA and Qwen variants across three industrial tasks, we introduce five deployment metrics-Economic Break-Even (Nbreak), Intelligence-Per-Watt (IPW ), System Density (\r{ho}sys), Cold-Start Tax (Ctax), and Quantization Fidelity (Qret)-capturing profitability, energy efficiency, hardware scaling, serverless feasibility, and compression safety. Our results reveal a clear efficiency frontier-models in the <2B parameter class dominate larger baselines across economic and ecological dimensions. LLaMA-3.2-1B (INT4) achieves ROI break-even in 14 requests (median), delivers 3x higher energy-normalized intelligence than 7B models, and exceeds 6,900 tokens/s/GB under 4-bit quantization. We further uncover an efficiency anomaly-while QLoRA reduces memory footprint, it increases adaptation energy by up to 7x for small models-challenging prevailing assumptions about quantization-aware training in edge deployment.
- Abstract(参考訳): 大規模言語モデル(LLMs)によって駆動される生成AIは、信頼性、効率性、コスト管理が不可欠である医療決定サポート、財務分析、企業検索、会話自動化など、業界にますます普及している。
このような設定では、モデルはエネルギー、レイテンシ、ハードウェア利用率に関する厳密な制約を満たさなければならない。
しかし、一般的な評価パイプラインは精度中心であり、モデルアセスメントにおける運用基準と経済基準が欠如しているデプロイ評価ギャップを創出する。
このギャップに対処するため,従来のNVIDIA Tesla T4 GPU上でのLCMのライフサイクル全体を評価する,業界指向のベンチマークフレームワークであるEDGE-EVALを紹介した。
LLaMAとQwenの3つの産業タスクをベンチマークし、エコノミック・ブレイク・エベン(Nbreak)、インテリジェンス・パー・ワット(IPW)、システム密度(\r{ho}sys)、コールド・スタート税(Ctax)、量子化フィデリティ(Qret)の5つのデプロイメントメトリクスを導入し、収益性、エネルギー効率、ハードウェアスケーリング、サーバーレスの実現可能性、圧縮安全性について検討した。
以上の結果から,<2Bパラメータークラスのフロンティアモデルが経済的・生態学的次元にわたって大きなベースラインを占めることが明らかとなった。
LLaMA-3.2-1B (INT4) は、7Bモデルよりも3倍高いエネルギー正規化インテリジェンスを提供し、4ビット量子化の下で6,900トークン/s/GBを超えた。
さらに,QLoRAはメモリフットプリントを削減し,小型モデルの適応エネルギーを最大7倍に向上させる。
関連論文リスト
- Towards Green AI: Decoding the Energy of LLM Inference in Software Development [46.879983975894135]
AI支援ツールはソフトウェア開発にますます統合されているが、大きな言語モデル(LLM)に依存しているため、相当な計算とエネルギーコストが伴う。
モデルが入力を処理して内部表現を構築した(1)プリフィルと,(2)デコードで格納された状態を用いて出力トークンを生成する(2)プリフィルとを区別し,LCM推定エネルギー消費の位相レベル解析を行う。
論文 参考訳(メタデータ) (2026-02-05T14:38:19Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。