論文の概要: Optimizing Model Selection for Compound AI Systems
- arxiv url: http://arxiv.org/abs/2502.14815v1
- Date: Thu, 20 Feb 2025 18:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:15.680730
- Title: Optimizing Model Selection for Compound AI Systems
- Title(参考訳): 複合AIシステムのためのモデル選択の最適化
- Authors: Lingjiao Chen, Jared Quincy Davis, Boris Hanin, Peter Bailis, Matei Zaharia, James Zou, Ion Stoica,
- Abstract要約: 本稿では,複合システムにおけるモデル選択のための効率的なフレームワークを提案する。
1つのモジュールを反復的に選択し、最も高いモジュールレベルのパフォーマンスを持つモデルを割り当てます。
すべてのモジュールで同じLLMを使用する場合と比較して、5%-70%の精度向上が期待できる。
- 参考スコア(独自算出の注目度): 76.69936664916061
- License:
- Abstract: Compound AI systems that combine multiple LLM calls, such as self-refine and multi-agent-debate, achieve strong performance on many AI tasks. We address a core question in optimizing compound systems: for each LLM call or module in the system, how should one decide which LLM to use? We show that these LLM choices have a large effect on quality, but the search space is exponential. We propose LLMSelector, an efficient framework for model selection in compound systems, which leverages two key empirical insights: (i) end-to-end performance is often monotonic in how well each module performs, with all other modules held fixed, and (ii) per-module performance can be estimated accurately by an LLM. Building upon these insights, LLMSelector iteratively selects one module and allocates to it the model with the highest module-wise performance, as estimated by an LLM, until no further gain is possible. LLMSelector is applicable to any compound system with a bounded number of modules, and its number of API calls scales linearly with the number of modules, achieving high-quality model allocation both empirically and theoretically. Experiments with popular compound systems such as multi-agent debate and self-refine using LLMs such as GPT-4o, Claude 3.5 Sonnet and Gemini 1.5 show that LLMSelector confers 5%-70% accuracy gains compared to using the same LLM for all modules.
- Abstract(参考訳): 自己定義やマルチエージェント・ディベートといった複数のLLMコールを組み合わせた複合AIシステムは、多くのAIタスクで強力なパフォーマンスを達成する。
システム内の各LLMコールやモジュールに対して、どのLLMを使用するべきかをどうやって決めるべきなのか?
これらのLCM選択は品質に大きな影響を与えるが,探索空間は指数関数的である。
複合システムにおけるモデル選択のための効率的なフレームワークであるLLMSelectorを提案する。
i) エンド・ツー・エンドのパフォーマンスは、各モジュールがいかにうまく機能するかにおいて単調であり、他の全てのモジュールが固定されている。
(ii)モジュールごとの性能をLLMで正確に推定できる。
これらの洞察に基づいて、LLMSelectorは1つのモジュールを反復的に選択し、LCMが見積もっているように、そのモデルにモジュール単位での最高のパフォーマンスを割り当てる。
LLMSセレクタはモジュール数に制限のある複合システムに適用でき、そのAPI呼び出し数はモジュール数と線形にスケールし、経験的にも理論的にも高品質なモデルアロケーションを実現する。
GPT-4o や Claude 3.5 Sonnet や Gemini 1.5 などの LLM を用いたマルチエージェントの議論や自己精製のような一般的な複合システムによる実験では、LLMSelector は全てのモジュールで同じ LLM を使用する場合と比較して5%-70% の精度向上が期待できる。
関連論文リスト
- LLM-based Optimization of Compound AI Systems: A Survey [64.39860384538338]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。
近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。
本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - ELMS: Elasticized Large Language Models On Mobile Devices [5.689405542579458]
デバイス上の大規模言語モデル(LLM)は、プライバシー問題に対処しながら、UI自動化などのアプリケーションを可能にする、モバイルAIに革命をもたらしている。
ELMSは、モデルとプロンプト次元の両方で弾力性を提供するように設計されたデバイス上でのLCMサービスである。
トランスモデルに固有の置換整合性を利用して高品質で柔軟なサブモデルを作成するワンタイムリオーダーニューロニング技術。
プロンプトを効率的に洗練し、モデルプロンプト間の弾性適応をコーディネートするデュアルヘッドコンパクト言語モデル。
論文 参考訳(メタデータ) (2024-09-08T06:32:08Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションで顕著なパフォーマンスのために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。