論文の概要: EdgeReasoning: Characterizing Reasoning LLM Deployment on Edge GPUs
- arxiv url: http://arxiv.org/abs/2511.01866v1
- Date: Tue, 21 Oct 2025 04:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-09 16:58:40.042118
- Title: EdgeReasoning: Characterizing Reasoning LLM Deployment on Edge GPUs
- Title(参考訳): EdgeReasoning:エッジGPU上のLLMデプロイメントを特徴付ける
- Authors: Benjamin Kubwimana, Qijing Huang,
- Abstract要約: エッジGPU上の推論タスクのための大規模言語モデル(LLM)は、厳格なレイテンシ制約と限られた計算リソースから重要な課題に直面している。
これらの制約をナビゲートするには、推論と非推論アーキテクチャのバランス、適切なモデルサイズの選択、トークン予算の割り当て、テスト時のスケーリング戦略の適用が必要です。
We present EdgeReasoning, a comprehensive study that the deployment of reasoning LLMs on edge GPUs。
- 参考スコア(独自算出の注目度): 0.36050743818632486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge intelligence paradigm is increasingly demanded by the emerging autonomous systems, such as robotics. Beyond ensuring privacy-preserving operation and resilience in connectivity-limited environments, edge deployment offers significant energy and cost advantages over cloud-based solutions. However, deploying large language models (LLMs) for reasoning tasks on edge GPUs faces critical challenges from strict latency constraints and limited computational resources. To navigate these constraints, developers must balance multiple design factors - choosing reasoning versus non-reasoning architectures, selecting appropriate model sizes, allocating token budgets, and applying test-time scaling strategies - to meet target latency and optimize accuracy. Yet guidance on optimal combinations of these variables remains scarce. In this work, we present EdgeReasoning, a comprehensive study characterizing the deployment of reasoning LLMs on edge GPUs. We systematically quantify latency-accuracy tradeoffs across various LLM architectures and model sizes. We systematically evaluate prompt-based and model-tuning-based techniques for reducing reasoning token length while maintaining performance quality. We further profile test-time scaling methods with varying degrees of parallelism to maximize accuracy under strict latency budgets. Through these analyses, EdgeReasoning maps the Pareto frontier of achievable accuracy-latency configurations, offering systematic guidance for optimal edge deployment of reasoning LLMs.
- Abstract(参考訳): エッジインテリジェンスパラダイムは、ロボティクスのような新興の自律システムによってますます要求される。
接続に制限のある環境でのプライバシ保護操作とレジリエンスの確保に加えて、エッジデプロイメントはクラウドベースのソリューションよりも大きなエネルギとコストのアドバンテージを提供します。
しかし、エッジGPU上でタスクを推論するための大規模言語モデル(LLM)のデプロイは、厳格なレイテンシ制約と限られた計算リソースによる重大な課題に直面している。
これらの制約をナビゲートするには、開発者は複数の設計要因 – 推論と非推論アーキテクチャの選択、適切なモデルサイズの選択、トークン予算の割り当て、テストタイムスケーリング戦略の適用 – をバランスさせ、目標のレイテンシを満足させ、精度を最適化する必要があります。
しかし、これらの変数の最適組み合わせに関するガイダンスは依然として乏しい。
本稿では,エッジGPU上でのLLMの展開を特徴付ける総合的研究であるEdgeReasoningを紹介する。
各種LLMアーキテクチャとモデルサイズ間の遅延精度トレードオフを系統的に定量化する。
性能を保ちつつ,推論トークン長を低減するためのプロンプトベースおよびモデルチューニングベースの手法を体系的に評価した。
さらに,厳密な遅延予算下での精度を最大化するため,並列性の異なるテスト時間スケーリング手法についても検討した。
これらの分析を通じて、EdgeReasoningは達成可能な精度レイテンシ構成のParetoフロンティアをマッピングし、推論LDMの最適なエッジデプロイメントのための体系的なガイダンスを提供する。
関連論文リスト
- Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - On Accelerating Edge AI: Optimizing Resource-Constrained Environments [1.7355861031903428]
リソース制約のあるエッジデプロイメントでは、厳格な計算、メモリ、エネルギー制限とハイパフォーマンスのバランスをとるAIソリューションが要求される。
本稿では,このような制約下でのディープラーニングモデルを加速するための主要な戦略について概観する。
論文 参考訳(メタデータ) (2025-01-25T01:37:03Z) - RE-POSE: Synergizing Reinforcement Learning-Based Partitioning and Offloading for Edge Object Detection [3.2805151494259563]
エッジデバイス上でのリアルタイムオブジェクト検出は、その限られた計算リソースと、ディープニューラルネットワーク(DNN)ベースの検出モデルの高要求により、大きな課題を呈している。
本稿では,リソース制約のあるエッジ環境における精度-遅延トレードオフを最適化するフレームワークであるRE-POSEを紹介する。
論文 参考訳(メタデータ) (2025-01-16T10:56:45Z) - MoE$^2$: Optimizing Collaborative Inference for Edge Large Language Models [43.83407446438587]
大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
エッジLLMのための新しい協調推論フレームワークである textitMixture-of-Edge-Experts (MoE$2$) を紹介する。
論文 参考訳(メタデータ) (2025-01-16T09:36:32Z) - Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。
BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。
我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文 参考訳(メタデータ) (2024-12-03T19:20:08Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。