論文の概要: Accuracy-Delay Trade-Off in LLM Offloading via Token-Level Uncertainty
- arxiv url: http://arxiv.org/abs/2602.07958v1
- Date: Sun, 08 Feb 2026 13:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.891395
- Title: Accuracy-Delay Trade-Off in LLM Offloading via Token-Level Uncertainty
- Title(参考訳): Token-Level不確実性によるLLM負荷の高精度遅延トレードオフ
- Authors: Yumin Kim, Hyeonsu Lyu, Minjae Lee, Hyun Jong Yang,
- Abstract要約: 大規模言語モデル(LLM)は、インテリジェントなモバイルサービスには大きな可能性を秘めているが、リソース制約のあるデバイスには計算集約的である。
モバイルエッジコンピューティング(MEC)は、そのようなデバイスがエッジサーバ(ES)に推論タスクをオフロードすることを可能にするが、通信とサーバサイドのキューによってレイテンシが生じる。
本稿では,ローカルで推論を行うか,ESにオフロードするかを動的に決定する不確実性を考慮したオフロードフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.403735095944747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) offer significant potential for intelligent mobile services but are computationally intensive for resource-constrained devices. Mobile edge computing (MEC) allows such devices to offload inference tasks to edge servers (ESs), yet introduces latency due to communication and serverside queuing, especially in multi-user environments. In this work, we propose an uncertainty-aware offloading framework that dynamically decides whether to perform inference locally or offload it to the ES, based on token-level uncertainty and resource constraints. We define a margin-based token-level uncertainty metric and demonstrate its correlation with model accuracy. Leveraging this metric, we design a greedy offloading algorithm (GOA) that minimizes delay while maintaining accuracy by prioritizing offloading for highuncertainty queries. Our experiments show that GOA consistently achieves a favorable trade-off, outperforming baseline strategies in both accuracy and latency across varying user densities, and operates with practical computation time. These results establish GOA as a scalable and effective solution for LLM inference in MEC environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インテリジェントなモバイルサービスには大きな可能性を秘めているが、リソース制約のあるデバイスには計算集約的である。
モバイルエッジコンピューティング(MEC)は、エッジサーバ(ES)への推論タスクのオフロードを可能にするが、特にマルチユーザ環境では、通信とサーバサイドのキューイングによる遅延が発生する。
本研究では,トークンレベルの不確実性とリソース制約に基づいて,局所的に推論を行うか,ESにオフロードするかを動的に決定する不確実性を考慮したオフロードフレームワークを提案する。
マージンベースのトークンレベルの不確実性尺度を定義し,そのモデル精度との相関性を実証する。
このメトリクスを活用することで、高い不確実性クエリのオフロードを優先順位付けすることで、精度を維持しながら遅延を最小化できるgreedy offloading algorithm(GOA)を設計する。
実験の結果,GOAはユーザ密度の異なる精度とレイテンシの両方において,ベースライン戦略よりも優れたトレードオフを実現し,実用的な計算時間で動作可能であることがわかった。
これらの結果から,MEC環境におけるLLM推論のためのスケーラブルで効果的なソリューションとしてGOAが確立された。
関連論文リスト
- Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - Collaborative Large Language Model Inference via Resource-Aware Parallel Speculative Decoding [6.130486652666936]
投機的復号化は、モバイルデバイスの軽量ドラフトモデルとエッジサーバの強力なターゲットモデルとの間にトークン生成を分割することで、有望なソリューションを提供する。
本稿では,効率的な並列投機的復号化を支援するために,ユーザアソシエーションとリソースアロケーションを協調的に最適化する統合フレームワークを初めて提案する。
その結果,提案手法は推定精度を損なうことなく,最大28.0%,平均23.7%のレイテンシ削減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-03T16:04:44Z) - EdgeReasoning: Characterizing Reasoning LLM Deployment on Edge GPUs [0.36050743818632486]
エッジGPU上の推論タスクのための大規模言語モデル(LLM)は、厳格なレイテンシ制約と限られた計算リソースから重要な課題に直面している。
これらの制約をナビゲートするには、推論と非推論アーキテクチャのバランス、適切なモデルサイズの選択、トークン予算の割り当て、テスト時のスケーリング戦略の適用が必要です。
We present EdgeReasoning, a comprehensive study that the deployment of reasoning LLMs on edge GPUs。
論文 参考訳(メタデータ) (2025-10-21T04:18:25Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Adaptive Stream Processing on Edge Devices through Active Inference [5.5676731834895765]
アクティブ推論(AIF)に基づく新しい機械学習パラダイムを提案する。
AIFは、脳が長期的サプライズを減らすために感覚情報を常に予測し、評価する方法を記述している。
本手法は意思決定の完全透明性を保証し,結果の解釈とトラブルシューティングを無力化する。
論文 参考訳(メタデータ) (2024-09-26T15:12:41Z) - Active Inference on the Edge: A Design Study [5.815300670677979]
アクティブ推論(アクティブ推論、英: Active Inference、ACI)とは、脳が知覚情報を常に予測し評価し、長期的サプライズを減らす方法を記述する神経科学の概念である。
我々は,ACIエージェントが要求を満たすことなく,最適化問題を迅速かつ追跡的に解決できたことを示す。
論文 参考訳(メタデータ) (2023-11-17T16:03:04Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Real-Time Edge Classification: Optimal Offloading under Token Bucket
Constraints [13.583977689847433]
厳密なレイテンシ制約の下でオフロード決定を行うためのMarkov Decision Processベースのフレームワークを導入します。
また、同一アクセススイッチに接続された複数のデバイスがバースト割り当てを共有できるようにする手法を提案する。
我々は,標準イメージネット画像分類ベンチマークにおいて,このフレームワークを用いて得られたポリシーを評価し,分析する。
論文 参考訳(メタデータ) (2020-10-26T17:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。