論文の概要: Composition of Experts: A Modular Compound AI System Leveraging Large Language Models
- arxiv url: http://arxiv.org/abs/2412.01868v1
- Date: Mon, 02 Dec 2024 07:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:58.032884
- Title: Composition of Experts: A Modular Compound AI System Leveraging Large Language Models
- Title(参考訳): エキスパートの構成: 大規模言語モデルを活用したモジュール型複合AIシステム
- Authors: Swayambhoo Jain, Ravi Raju, Bo Li, Zoltan Csaki, Jonathan Li, Kaizhao Liang, Guoyao Feng, Urmish Thakkar, Anand Sampat, Raghu Prabhakar, Sumati Jairath,
- Abstract要約: コンポジション・オブ・エキスパートズ(CoE)は,複数専門家大規模言語モデル(LLM)を活用したモジュール型複合AIシステムである。
本稿では,これらの複雑さに対処する2段階のルーティング手法を提案し,まず最初にルータを用いて異なるカテゴリに分類し,次に所望のエキスパートを得るためのカテゴリ・ツー・エキスパート・マッピングを提案する。
実験により,CoEの計算オーバーヘッド低減による性能向上効果が実証された。
- 参考スコア(独自算出の注目度): 12.27263173279814
- License:
- Abstract: Large Language Models (LLMs) have achieved remarkable advancements, but their monolithic nature presents challenges in terms of scalability, cost, and customization. This paper introduces the Composition of Experts (CoE), a modular compound AI system leveraging multiple expert LLMs. CoE leverages a router to dynamically select the most appropriate expert for a given input, enabling efficient utilization of resources and improved performance. We formulate the general problem of training a CoE and discuss inherent complexities associated with it. We propose a two-step routing approach to address these complexities that first uses a router to classify the input into distinct categories followed by a category-to-expert mapping to obtain desired experts. CoE offers a flexible and cost-effective solution to build compound AI systems. Our empirical evaluation demonstrates the effectiveness of CoE in achieving superior performance with reduced computational overhead. Given that CoE comprises of many expert LLMs it has unique system requirements for cost-effective serving. We present an efficient implementation of CoE leveraging SambaNova SN40L RDUs unique three-tiered memory architecture. CoEs obtained using open weight LLMs Qwen/Qwen2-7B-Instruct, google/gemma-2-9b-it, google/gemma-2-27b-it, meta-llama/Llama-3.1-70B-Instruct and Qwen/Qwen2-72B-Instruct achieve a score of $59.4$ with merely $31$ billion average active parameters on Arena-Hard and a score of $9.06$ with $54$ billion average active parameters on MT-Bench.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい進歩を遂げていますが、そのモノリシックな性質は、スケーラビリティ、コスト、カスタマイズという面での課題を示しています。
本稿では,複数の専門家LLMを活用するモジュール型複合AIシステムであるCompose of Experts(CoE)を紹介する。
CoEはルータを利用して、与えられた入力に対して最も適切な専門家を動的に選択し、リソースの効率的な利用とパフォーマンスの向上を可能にする。
我々は、CoEを訓練する一般的な問題を定式化し、それに関連する固有の複雑さについて議論する。
本稿では,これらの複雑さに対処する2段階のルーティング手法を提案し,まず最初にルータを用いて異なるカテゴリに分類し,次に所望のエキスパートを得るためのカテゴリ・ツー・エキスパート・マッピングを提案する。
CoEは、複合AIシステムを構築するための柔軟で費用対効果の高いソリューションを提供する。
実験により,CoEの計算オーバーヘッド低減による性能向上効果が実証された。
CoEは多くの専門家のLSMで構成されているため、コスト効果の高いサービスに特有のシステム要件がある。
本研究では,SambaNova SN40L RDUのユニークな3層メモリアーキテクチャを利用したCoEの効率的な実装を提案する。
CoEs obtained using openweight LLMs Qwen/Qwen2-7B-Instruct, google/gemma-2-9b-it, google/gemma-2-27b-it, meta-llama/Llama-3.1-70B-Instruct and Qwen/Qwen2-72B-Instruct achieve a score of59.4$ with just $31$ billion average active parameters on Arena-Hard and a score of 9.06$ with 5,4$ average active parameters on MT-Bench。
関連論文リスト
- Doing More with Less -- Implementing Routing Strategies in Large Language Model-Based Systems: An Extended Survey [1.430963201405577]
LLM(Large Language Models)ベースのシステムは、すべてのユーザクエリに対して単一のLLMに依存している。
彼らはしばしば、異なる事前処理戦略、推論のレベル、あるいは知識を必要とします。
本稿では,LLMシステムにルーティングを統合する上で重要な課題について考察する。
論文 参考訳(メタデータ) (2025-02-01T12:08:38Z) - Enhancing LLMs for Power System Simulations: A Feedback-driven Multi-agent Framework [1.4255659581428337]
電力系統のシミュレーションを管理するためのフィードバック駆動型マルチエージェントフレームワークを提案する。
このフレームワークは、DalineとMATPOWERの69種類のタスクでそれぞれ93.13%と96.85%の成功率を達成した。
また、高速で費用対効果の高いタスク実行をサポートし、トークンの平均コスト0.014 USDで各シミュレーションを約30秒で完了する。
論文 参考訳(メタデータ) (2024-11-21T19:01:07Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Ada-K Routing: Boosting the Efficiency of MoE-based LLMs [6.954735360168147]
トークンごとにアクティベートされた専門家の数を動的に調整する新しいAda-Kルーティング戦略を提案する。
我々の戦略は学習可能で軽量なアロケータモジュールを組み込んでおり、各トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する。
論文 参考訳(メタデータ) (2024-10-14T12:50:04Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - TensorOpera Router: A Multi-Model Router for Efficient LLM Inference [27.2803289964386]
TO-lemmaはモノリシックなLLMクエリシステムである。
様々なLLM専門家をシームレスに単一のクエリインターフェースに統合する。
クエリの要求に基づいて、入力クエリを最も高性能な専門家に動的にルーティングする。
論文 参考訳(メタデータ) (2024-08-22T11:57:07Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。