論文の概要: MoE$^2$: Optimizing Collaborative Inference for Edge Large Language Models
- arxiv url: http://arxiv.org/abs/2501.09410v1
- Date: Thu, 16 Jan 2025 09:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:01.220517
- Title: MoE$^2$: Optimizing Collaborative Inference for Edge Large Language Models
- Title(参考訳): MoE$^2$:エッジ大規模言語モデルに対する協調推論の最適化
- Authors: Lyudong Jin, Yanning Zhang, Yanhan Li, Shurong Wang, Howard H. Yang, Jian Wu, Meng Zhang,
- Abstract要約: 大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
エッジLLMのための新しい協調推論フレームワークである textitMixture-of-Edge-Experts (MoE$2$) を紹介する。
- 参考スコア(独自算出の注目度): 43.83407446438587
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of natural language processing tasks. Exploiting the heterogeneous capabilities of edge LLMs is crucial for diverse emerging applications, as it enables greater cost-effectiveness and reduced latency. In this work, we introduce \textit{Mixture-of-Edge-Experts (MoE$^2$)}, a novel collaborative inference framework for edge LLMs. We formulate the joint gating and expert selection problem to optimize inference performance under energy and latency constraints. Unlike conventional MoE problems, LLM expert selection is significantly more challenging due to the combinatorial nature and the heterogeneity of edge LLMs across various attributes. To this end, we propose a two-level expert selection mechanism through which we uncover an optimality-preserving property of gating parameters across expert selections. This property enables the decomposition of the training and selection processes, significantly reducing complexity. Furthermore, we leverage the objective's monotonicity and design a discrete monotonic optimization algorithm for optimal expert selection. We implement edge servers with NVIDIA Jetson AGX Orins and NVIDIA RTX 4090 GPUs, and perform extensive experiments. Our results validate that performance improvements of various LLM models and show that our MoE$^2$ method can achieve optimal trade-offs among different delay and energy budgets, and outperforms baselines under various system resource constraints.
- Abstract(参考訳): 大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
エッジLLMの異種機能をエクスプロイトすることは、コスト効率の向上とレイテンシの低減を可能にするため、多様な新興アプリケーションにとって不可欠である。
本稿では,エッジLLMの新しい協調推論フレームワークであるtextit{Mixture-of-Edge-Experts (MoE$^2$)}を紹介する。
我々は、エネルギーおよび遅延制約下での推論性能を最適化するために、共同ゲーティングと専門家の選択問題を定式化する。
従来のMoE問題とは異なり、LLMの専門家選択は、組み合わせの性質と様々な属性にわたるエッジLLMの不均一性により、はるかに困難である。
そこで本稿では,専門家選択におけるゲーティングパラメータの最適性保存特性を明らかにするための2段階の専門家選択機構を提案する。
この性質は、トレーニングと選択プロセスの分解を可能にし、複雑さを著しく低減します。
さらに、目的物の単調性を活用し、最適な専門家選択のための離散単調最適化アルゴリズムを設計する。
我々はNVIDIA Jetson AGX OrinsとNVIDIA RTX 4090 GPUでエッジサーバを実装し、広範な実験を行った。
提案手法は, 各種LCMモデルの性能向上を実証し, 様々な遅延・エネルギー予算間での最適トレードオフを達成でき, 各種システム資源制約下でのベースラインよりも優れていることを示す。
関連論文リスト
- Improving Existing Optimization Algorithms with LLMs [0.9668407688201361]
本稿では,Large Language Models (LLM) が既存の最適化アルゴリズムをどのように拡張するかを検討する。
事前学習した知識を用いて、革新的なバリエーションと実装戦略を提案する能力を示す。
以上の結果から, GPT-4oによる代替案はCMSAのエキスパート設計よりも優れていた。
論文 参考訳(メタデータ) (2025-02-12T10:58:57Z) - Can Large Language Models Be Trusted as Black-Box Evolutionary Optimizers for Combinatorial Problems? [8.082897040940447]
LLM(Large Language Models)は、幅広い知識でゲームを変えるソリューションを提供し、最適化のパラダイムを民主化することができる。
したがって、LLMの適合性を進化機構(EVO)として評価することが不可欠である。
論文 参考訳(メタデータ) (2025-01-25T05:19:19Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションで顕著なパフォーマンスのために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。
OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。
OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文 参考訳(メタデータ) (2024-07-09T07:11:10Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Large Language Model-Based Evolutionary Optimizer: Reasoning with
elitism [1.1463861912335864]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
本稿では,LLMが様々なシナリオにまたがるゼロショット最適化能力を有していることを主張する。
LLMを用いた数値最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T13:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。