論文の概要: JPPO: Joint Power and Prompt Optimization for Accelerated Large Language Model Services
- arxiv url: http://arxiv.org/abs/2411.18010v1
- Date: Wed, 27 Nov 2024 03:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:43.129563
- Title: JPPO: Joint Power and Prompt Optimization for Accelerated Large Language Model Services
- Title(参考訳): JPPO: 高速化された大規模言語モデルサービスのための統合パワーとプロンプト最適化
- Authors: Feiran You, Hongyang Du, Kaibin Huang, Abbas Jamalipour,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにおいて顕著な能力を示しており、無線ネットワークへの展開が増加している。
本研究では,Small Language Model (SLM) をベースとしたプロンプト圧縮と無線電力割り当て最適化を組み合わせたフレームワークとして,JPPO(Joint Power and Prompt Optimization)を提案する。
- 参考スコア(独自算出の注目度): 35.43737816571969
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks, leading to their increasing deployment in wireless networks for a wide variety of user services. However, the growing longer prompt setting highlights the crucial issue of computational resource demands and huge communication load. To address this challenge, we propose Joint Power and Prompt Optimization (JPPO), a framework that combines Small Language Model (SLM)-based prompt compression with wireless power allocation optimization. By deploying SLM at user devices for prompt compression and employing Deep Reinforcement Learning for joint optimization of compression ratio and transmission power, JPPO effectively balances service quality with resource efficiency. Experimental results demonstrate that our framework achieves high service fidelity and low bit error rates while optimizing power usage in wireless LLM services. The system reduces response time by about 17%, with the improvement varying based on the length of the original prompt.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、様々なユーザサービスのための無線ネットワークへの展開が増加している。
しかし、より長いプロンプト設定は、計算リソースの要求と膨大な通信負荷の重要な問題を強調している。
この課題に対処するため,Small Language Model (SLM) ベースのプロンプト圧縮と無線電力割り当て最適化を組み合わせたフレームワークであるJoint Power and Prompt Optimization (JPPO)を提案する。
JPPOは、ユーザデバイスにSLMを配置し、圧縮率と送信電力の同時最適化にDeep Reinforcement Learningを導入することにより、サービス品質とリソース効率を効果的にバランスさせる。
実験により,無線LLMサービスにおける電力使用率を最適化しつつ,高サービス忠実度と低ビット誤り率を実現していることが示された。
システムは応答時間を約17%短縮し、改善は元のプロンプトの長さによって異なる。
関連論文リスト
- Learn to Optimize Resource Allocation under QoS Constraint of AR [6.073675653083644]
本稿では,対話型拡張現実(AR)サービスにおけるアップリンクとダウンリンクのパワーアロケーションについて検討する。
タンデムキューシステムとしてAR伝送プロセスをモデル化することにより、エンドツーエンドのレイテンシと信頼性に関するQoS(probabilistic quality of Service)要件の上限を導出する。
本稿では、最適電力配分構造を利用して学習性能を向上させることによって、電力配分ポリシーを学習するためのディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T16:42:48Z) - SMDP-Based Dynamic Batching for Improving Responsiveness and Energy Efficiency of Batch Services [12.600853777230185]
並列コンピューティングリソースは、より大きなバッチサイズで動作する場合の計算効率とエネルギー効率が向上する。
オンラインサービスの世界では、より大きなバッチサイズを採用することで、レスポンス時間が長くなる可能性がある。
本稿では,レイテンシと効率を微妙にバランスさせる動的スキームを提案する。
論文 参考訳(メタデータ) (2025-01-04T04:14:09Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards [4.334100270812517]
大型言語モデル(LLM)は電気通信の技術的標準と競合する。
Phi-2小言語モデル(SLM)に基づく細調整検索拡張生成(RAG)システムを提案する。
本実験は,通信分野における既存の質問応答手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-08-21T17:00:05Z) - Large Language Model as a Catalyst: A Paradigm Shift in Base Station Siting Optimization [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
提案するフレームワークは、検索拡張生成(RAG)を組み込んで、ドメイン固有の知識を取得してソリューションを生成するシステムの能力を高める。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - Deep Reinforcement Learning based Online Scheduling Policy for Deep Neural Network Multi-Tenant Multi-Accelerator Systems [1.7724466261976437]
本稿では,マルチテナント環境におけるDNNのオンラインスケジューリングを目的とした低オーバーヘッド深層強化学習アルゴリズムRELMASを提案する。
ヘテロジニアス多加速器システムへのRELMASの適用により、SLAの満足度は最大で173%向上した。
論文 参考訳(メタデータ) (2024-04-13T10:13:07Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Federated Learning over Wireless IoT Networks with Optimized
Communication and Resources [98.18365881575805]
協調学習技術のパラダイムとしてのフェデレートラーニング(FL)は研究の注目を集めている。
無線システム上での高速応答および高精度FLスキームの検証が重要である。
提案する通信効率のよいフェデレーション学習フレームワークは,強い線形速度で収束することを示す。
論文 参考訳(メタデータ) (2021-10-22T13:25:57Z) - Optimal Power Allocation for Rate Splitting Communications with Deep
Reinforcement Learning [61.91604046990993]
このレターでは、レート分割多重アクセスネットワークにおいて、ユーザの電力割り当てを最適化するための新しいフレームワークを紹介します。
ネットワークでは、ユーザのために意図されたメッセージは、単一の共通部分と個々のプライベート部分に分割される。
論文 参考訳(メタデータ) (2021-07-01T06:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。