論文の概要: A Unified Approach to Routing and Cascading for LLMs
- arxiv url: http://arxiv.org/abs/2410.10347v1
- Date: Mon, 14 Oct 2024 10:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:14:39.844725
- Title: A Unified Approach to Routing and Cascading for LLMs
- Title(参考訳): LLMのルーティングとカスケードへの統一的アプローチ
- Authors: Jasper Dekoninck, Maximilian Baader, Martin Vechev,
- Abstract要約: 効果的な戦略は、全体的なパフォーマンスを大幅に向上させ、単一の大きなモノリシックモデルよりも改善を提供する。
既存のアプローチは、ルーティング(ルーティング)、クエリ毎に1つのモデルが選択される、カスケード(キャスケード)という2つのカテゴリに分類される。
本稿では,カスケードルーティングという新しい手法を提案する。この手法は,ルーティングの適応性とカスケードのコスト効率を併用する。
- 参考スコア(独自算出の注目度): 5.653106385738822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread applicability of large language models (LLMs) has increased the availability of many fine-tuned models of various sizes targeting specific tasks. Given a set of such specialized models, to maximize overall performance, it is important to figure out the optimal strategy for selecting the right model for a given user query. An effective strategy could drastically increase overall performance and even offer improvements over a single large monolithic model. Existing approaches typically fall into two categories: routing, where a single model is selected for each query, and cascading, which runs a sequence of increasingly larger models until a satisfactory answer is obtained. However, both have notable limitations: routing commits to an initial model without flexibility, while cascading requires executing every model in sequence, which can be inefficient. Additionally, the conditions under which these strategies are provably optimal remain unclear. In this work, we derive optimal strategies for both routing and cascading. Building on this analysis, we propose a novel approach called cascade routing, which combines the adaptability of routing with the cost-efficiency of cascading. Our experiments demonstrate that cascade routing consistently outperforms both routing and cascading across a variety of settings, improving both output quality and lowering computational cost, thus offering a unified and efficient solution to the model selection problem.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な適用性は、特定のタスクをターゲットとした様々なサイズの細調整モデルの可用性を高めている。
このような特殊なモデルの集合が与えられた場合、全体的な性能を最大化するためには、与えられたユーザクエリに対して適切なモデルを選択するための最適な戦略を見つけることが重要である。
効果的な戦略は、全体的なパフォーマンスを大幅に向上させ、単一の大きなモノリシックモデルよりも改善を提供する。
既存のアプローチは、ルーティング(ルーティング)、クエリ毎に1つのモデルが選択される、カスケード(キャスケード)という2つのカテゴリに分類される。
しかし、どちらも注目すべき制限がある: コミットを柔軟性のない初期モデルにルーティングする一方、カスケーディングではすべてのモデルをシーケンスで実行する必要がある。
さらに、これらの戦略が確実に最適である条件は不明確である。
本研究では、ルーティングとカスケードの両方に最適な戦略を導出する。
そこで本研究では,カスケードルーティング(Cascade routing)と呼ばれる新しい手法を提案する。
実験により、カスケードルーティングは、様々な設定におけるルーティングとカスケードの両方を一貫して上回り、出力品質と計算コストの低下の両方を改善し、モデル選択問題に対する統一的で効率的な解を提供することを示した。
関連論文リスト
- Model Fusion through Bayesian Optimization in Language Model Fine-Tuning [16.86812534268461]
下流タスクのための微調整された事前学習モデルは、様々な領域にまたがる適応性と信頼性で広く採用されているテクニックである。
本稿では,多目的ベイズ最適化により,所望の計量と損失の両方を最適化する新しいモデル融合手法を提案する。
各種下流タスクを対象とした実験では,ベイズ最適化誘導方式による大幅な性能向上が見られた。
論文 参考訳(メタデータ) (2024-11-11T04:36:58Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - It's Morphing Time: Unleashing the Potential of Multiple LLMs via Multi-objective Optimization [16.54335356612006]
モデルマージの目標は、複数のモデルを組み合わせることであり、それぞれが異なるタスクで優れており、個々のソースモデルよりも優れた1つのモデルにまとめることである。
既存の方法は人間の知識や直観に大きく依存している。
限られた評価において、優れたモデルマージ構成を得るのは難しいです。
論文 参考訳(メタデータ) (2024-06-29T16:34:23Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Deep Inverse Reinforcement Learning for Route Choice Modeling [0.6853165736531939]
経路選択モデリングは交通計画と需要予測の基本的な課題である。
本研究では,リンクベース経路選択モデルのための一般的な逆強化学習(IRL)フレームワークを提案する。
中国上海のタクシーGPSデータに基づく実験結果から,提案モデルの性能改善を検証した。
論文 参考訳(メタデータ) (2022-06-18T06:33:06Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - PASTO: Strategic Parameter Optimization in Recommendation Systems --
Probabilistic is Better than Deterministic [33.174973495620215]
確率論的戦略パラメータ体系は, 単一の決定論的パラメータを求める標準的手法と比較して, より優れた価値が得られることを示す。
私たちのアプローチは、数億人の日々のユーザーを持つ人気のあるソーシャルネットワークプラットフォームに適用されます。
論文 参考訳(メタデータ) (2021-08-20T09:02:58Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。