論文の概要: Leeroo Orchestrator: Elevating LLMs Performance Through Model
Integration
- arxiv url: http://arxiv.org/abs/2401.13979v1
- Date: Thu, 25 Jan 2024 06:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:35:05.570820
- Title: Leeroo Orchestrator: Elevating LLMs Performance Through Model
Integration
- Title(参考訳): Leeroo Orchestrator:モデル統合によるLLMのパフォーマンス向上
- Authors: Alireza Mohammadshahi, Ali Shaikh, Majid Yazdani
- Abstract要約: 我々は,複数の訓練されたLLMの集合的知識を活用して,新しい最先端のオーケストレータを構築するアーキテクチャを提案する。
強化学習における自己プレイに触発されて、私たちは、オーケストレータのためのトレーニングデータを生成するために、クエリ生成、オーケストレーション、評価のループを作成しました。
- 参考スコア(独自算出の注目度): 7.106243111116404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an architecture to harness the collective knowledge
of multiple trained LLMs to create a new state-of-the-art. At the core of this
framework is a LLM-based orchestrator that is adept at picking the right
underlying LLM experts for optimal task execution. Inspired by self-play in
reinforcement learning, we created a loop of query generation, orchestration,
and evaluation to generate training data for the orchestrator. Our evaluation
focused on the MMLU benchmark, employing models with 7B, 13B, and 34B
parameters available on Hugging Face. The results demonstrate new
state-of-the-art open-source models: Our Leeroo orchestrator achieves
performance on par with the Mixtral model while incurring only two-thirds of
its cost. Moreover, increasing the allowed cost surpasses Mixtral's accuracy by
over 5% at the same cost level, reaching an accuracy of 75.9%. Further
enhancements were observed when integrating GPT4 into the underlying model
pool. The Leeroo orchestrator nearly matches GPT4's performance at half the
cost and even exceeds GPT4's results with a 25% cost reduction. These findings
illustrate the potential of our architecture in creating state-of-the-art and
cost-effective LLMs by optimizing the synergy between multiple LLMs to achieve
superior performance outcomes.
- Abstract(参考訳): 本稿では,複数のLLMの集合的知識を活用して新しい最先端技術を構築するアーキテクチャを提案する。
このフレームワークのコアはllmベースのオーケストレータで、最適なタスク実行のために適切なllm専門家を選ぶのに適しています。
強化学習における自己再生に触発されて、オーケストレータのトレーニングデータを生成するために、クエリ生成、オーケストレーション、評価のループを作成しました。
評価はmmluベンチマークに着目し,ハグ面に7b,13b,34bパラメータのモデルを用いた。
私たちのleerooオーケストレータは、コストの3分の2しか必要とせず、mixtralモデルと同等のパフォーマンスを実現しています。
さらに、許容コストの増大は、同じコストレベルでのmixtralの精度を5%以上上回り、75.9%の精度に達した。
GPT4をモデルプールに組み込む際にさらなる拡張が観察された。
LeerooオーケストレータはGPT4のパフォーマンスを半分のコストでほぼ一致し、GPT4の結果を25%のコスト削減で上回っている。
これらの結果は,複数のLLM間の相乗効果を最適化し,優れた性能を実現することにより,最先端かつコスト効率の高いLLMを構築する上でのアーキテクチャの可能性を示している。
関連論文リスト
- RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。
Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。
我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T04:56:53Z) - Cost-Saving LLM Cascades with Early Abstention [1.3108652488669732]
LLMカスケードにおける「早期禁忌」の利点について検討した。
6つのベンチマークで,テスト全体の損失を平均2.2%削減できることがわかった。
論文 参考訳(メタデータ) (2025-02-13T08:08:39Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - Towards Optimizing the Costs of LLM Usage [4.032848774697859]
理論的にも経験的にも、品質とコストを両立させる最適化問題について検討する。
トークンを品質に配慮した方法で低減するためのいくつかの決定論的手法を提案する。
本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。
論文 参考訳(メタデータ) (2024-01-29T16:36:31Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。