論文の概要: Multi-Turn Reasoning LLMs for Task Offloading in Mobile Edge Computing
- arxiv url: http://arxiv.org/abs/2604.07148v1
- Date: Wed, 08 Apr 2026 14:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.58733
- Title: Multi-Turn Reasoning LLMs for Task Offloading in Mobile Edge Computing
- Title(参考訳): モバイルエッジコンピューティングにおけるタスクオフロードのためのマルチTurn Reasoning LLM
- Authors: Ning Yang, Chuangxin Cheng, Haijun Zhang,
- Abstract要約: 我々は,MECシステムにおける前向きな意思決定を可能にする生成フレームワークであるCOMLLMを提案する。
COMLLMは、ほぼ最適レイテンシを実現し、ロードバランシングの公平性を向上する。特に、ゼロショットのスケーラビリティを示し、小規模ネットワークでトレーニングされたモデルは、再トレーニングすることなく、より大きく、目に見えないトポロジに一般化することができる。
- 参考スコア(独自算出の注目度): 15.718757401948304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging computation-intensive applications impose stringent latency requirements on resource-constrained mobile devices. Mobile Edge Computing (MEC) addresses this challenge through task offloading. However, designing effective policies remains difficult due to dynamic task arrivals, time-varying channels, and the spatio-temporal coupling of server queues. Conventional heuristics lack adaptability, while Deep Reinforcement Learning (DRL) suffers from limited generalization and architectural rigidity, requiring retraining when network topology changes. Although Large Language Models (LLMs) offer semantic reasoning capabilities, standard Supervised Fine-Tuning (SFT) yields myopic policies that greedily minimize immediate latency without accounting for long-term system evolution. To address these limitations, we propose COMLLM, a generative framework that enables foresighted decision-making in MEC systems. COMLLM integrates Group Relative Policy Optimization (GRPO) with a Look-Ahead Collaborative Simulation (LACS) mechanism, which performs multi-step Monte Carlo rollouts while jointly modeling server queue dynamics. By incorporating these rollouts into the reward design, the framework captures the long-term impact of current decisions on future system states. Experimental results demonstrate that COMLLM achieves near-optimal latency and improved load-balancing fairness. Notably, it exhibits zero-shot topological scalability, allowing a model trained on small-scale networks to generalize to larger, unseen topologies without retraining, outperforming SFT, DRL, and heuristic baselines.
- Abstract(参考訳): 新たな計算集約型アプリケーションは、リソース制約のあるモバイルデバイスに厳しいレイテンシ要件を課す。
モバイルエッジコンピューティング(MEC)はタスクオフロードを通じてこの問題に対処する。
しかし,動的タスク到着や時間変化チャネル,サーバキューの時空間結合などにより,効果的なポリシの設計は依然として困難である。
従来のヒューリスティックスには適応性がないが、Deep Reinforcement Learning (DRL) は限定的な一般化とアーキテクチャの剛性に悩まされており、ネットワークトポロジが変化すると再訓練を必要とする。
LLM(Large Language Models)はセマンティック推論機能を提供するが、標準のSupervised Fine-Tuning (SFT) では、長期システムの進化を考慮せずに、即座にレイテンシを最小化するミオピックポリシーを提供する。
これらの制約に対処するため,我々は,MECシステムにおける前向きな意思決定を可能にする生成フレームワークであるCOMLLMを提案する。
COMLLMはグループ相対ポリシー最適化(GRPO)とLook-Ahead Collaborative Simulation(LACS)機構を統合し、複数ステップのMonte Carloロールアウトを実行し、サーバキューのダイナミックを共同でモデル化する。
これらのロールアウトを報酬設計に組み込むことで、フレームワークは将来のシステム状態に対する現在の決定の長期的な影響を捉えます。
実験結果から,COMLLMは最適に近いレイテンシを実現し,負荷分散の公平性を改善した。
特に、ゼロショットトポロジのスケーラビリティを示しており、小規模ネットワークで訓練されたモデルが、再トレーニングをせずに、SFT、DRL、ヒューリスティックベースラインを上回ることなく、より大きく、見えないトポロジに一般化することができる。
関連論文リスト
- Reinforcement learning with timed constraints for robotics motion planning [0.5436465344481877]
本稿では,マルコフ決定プロセス (MDP) と部分観測可能なマルコフ決定プロセス (POMDP) の両方でポリシーを合成するための統一されたオートマトンベースのフレームワークを提案する。
単純だが表現力のある報酬構造は、時間的正しさを強制し、さらなるパフォーマンス目標を許容する。
その結果、提案フレームワークは、遷移条件下で厳密な時間制約を満たすポリシーを一貫して学習し、より大きな状態空間にスケールし、部分的に観測可能な環境において有効であることを実証した。
論文 参考訳(メタデータ) (2025-12-31T19:43:44Z) - Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications [0.0]
本稿では,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
オンラインモードでは、強化学習は、新しいスケジューリングソリューションを継続的に探索し発見することで、重要な役割を果たす。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
論文 参考訳(メタデータ) (2025-09-24T19:46:22Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Privacy-Aware Joint DNN Model Deployment and Partitioning Optimization for Collaborative Edge Inference Services [14.408050197587654]
エッジ推論(EI)は、クラウドベースのDeep Neural Network(DNN)推論サービスの増加に対処する、有望なパラダイムとして登場した。
リソース制約のあるエッジデバイスにDNNモデルをデプロイすることは、制限/ストレージリソース、動的サービス要求、プライバシーリスクの増大など、さらなる課題をもたらす。
本稿では,DNNモデルデプロイメント,ユーザサーバアソシエーション,モデルパーティショニングを共同で扱う,新たなプライバシ対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-22T05:27:24Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。