論文の概要: A Unified Approach to Routing and Cascading for LLMs
- arxiv url: http://arxiv.org/abs/2410.10347v1
- Date: Mon, 14 Oct 2024 10:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 22:14:39.844725
- Title: A Unified Approach to Routing and Cascading for LLMs
- Title(参考訳): LLMのルーティングとカスケードへの統一的アプローチ
- Authors: Jasper Dekoninck, Maximilian Baader, Martin Vechev,
- Abstract要約: 効果的な戦略は、全体的なパフォーマンスを大幅に向上させ、単一の大きなモノリシックモデルよりも改善を提供する。
既存のアプローチは、ルーティング(ルーティング)、クエリ毎に1つのモデルが選択される、カスケード(キャスケード)という2つのカテゴリに分類される。
本稿では,カスケードルーティングという新しい手法を提案する。この手法は,ルーティングの適応性とカスケードのコスト効率を併用する。
- 参考スコア(独自算出の注目度): 5.653106385738822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread applicability of large language models (LLMs) has increased the availability of many fine-tuned models of various sizes targeting specific tasks. Given a set of such specialized models, to maximize overall performance, it is important to figure out the optimal strategy for selecting the right model for a given user query. An effective strategy could drastically increase overall performance and even offer improvements over a single large monolithic model. Existing approaches typically fall into two categories: routing, where a single model is selected for each query, and cascading, which runs a sequence of increasingly larger models until a satisfactory answer is obtained. However, both have notable limitations: routing commits to an initial model without flexibility, while cascading requires executing every model in sequence, which can be inefficient. Additionally, the conditions under which these strategies are provably optimal remain unclear. In this work, we derive optimal strategies for both routing and cascading. Building on this analysis, we propose a novel approach called cascade routing, which combines the adaptability of routing with the cost-efficiency of cascading. Our experiments demonstrate that cascade routing consistently outperforms both routing and cascading across a variety of settings, improving both output quality and lowering computational cost, thus offering a unified and efficient solution to the model selection problem.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な適用性は、特定のタスクをターゲットとした様々なサイズの細調整モデルの可用性を高めている。
このような特殊なモデルの集合が与えられた場合、全体的な性能を最大化するためには、与えられたユーザクエリに対して適切なモデルを選択するための最適な戦略を見つけることが重要である。
効果的な戦略は、全体的なパフォーマンスを大幅に向上させ、単一の大きなモノリシックモデルよりも改善を提供する。
既存のアプローチは、ルーティング(ルーティング)、クエリ毎に1つのモデルが選択される、カスケード(キャスケード)という2つのカテゴリに分類される。
しかし、どちらも注目すべき制限がある: コミットを柔軟性のない初期モデルにルーティングする一方、カスケーディングではすべてのモデルをシーケンスで実行する必要がある。
さらに、これらの戦略が確実に最適である条件は不明確である。
本研究では、ルーティングとカスケードの両方に最適な戦略を導出する。
そこで本研究では,カスケードルーティング(Cascade routing)と呼ばれる新しい手法を提案する。
実験により、カスケードルーティングは、様々な設定におけるルーティングとカスケードの両方を一貫して上回り、出力品質と計算コストの低下の両方を改善し、モデル選択問題に対する統一的で効率的な解を提供することを示した。
関連論文リスト
- Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Model Fusion through Bayesian Optimization in Language Model Fine-Tuning [16.86812534268461]
下流タスクのための微調整された事前学習モデルは、様々な領域にまたがる適応性と信頼性で広く採用されているテクニックである。
本稿では,多目的ベイズ最適化により,所望の計量と損失の両方を最適化する新しいモデル融合手法を提案する。
各種下流タスクを対象とした実験では,ベイズ最適化誘導方式による大幅な性能向上が見られた。
論文 参考訳(メタデータ) (2024-11-11T04:36:58Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic [22.73746175315071]
ローカライズ・アンド・スティッチ(Localize-and-Stitch)は、モデルをローカライズされた方法でマージする新しいアプローチである。
提案手法は,微調整性能に寄与するスパース領域を効果的に検出できることを実証する。
また,本アルゴリズムはモデル圧縮を容易にし,事前学習した知識を保存する。
論文 参考訳(メタデータ) (2024-08-24T19:14:02Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - SepRep-Net: Multi-source Free Domain Adaptation via Model Separation And Reparameterization [75.74369886582394]
本稿では,SepRep-Netと呼ばれる新しいフレームワークを提案する。
SepRep-Netは複数の既存モデルを統合ネットワークに再組み立て、別々の経路(分離)を維持した。
SepRep-Net は、1) 効果、2) 目標領域での競争性能、2) 効率、低い計算コスト、3) 一般化可能性、既存のソリューションよりも多くのソース知識を維持する。
論文 参考訳(メタデータ) (2024-02-13T06:35:00Z) - Integrating Fairness and Model Pruning Through Bi-level Optimization [16.213634992886384]
フェアネス基準に準拠したスパースモデルを開発することを含む、フェアモデルプルーニングという新しい概念を導入する。
特に,プルーニングマスクと重み更新処理を公平性制約で協調的に最適化する枠組みを提案する。
このフレームワークは、統一されたプロセスにおける公正性を確保しながら、パフォーマンスを維持するモデルを圧縮するように設計されている。
論文 参考訳(メタデータ) (2023-12-15T20:08:53Z) - Cascaded Multi-task Adaptive Learning Based on Neural Architecture
Search [22.570517194736325]
本稿では,エンド・ツー・エンドのマルチタスクモデルを最適化する適応学習手法を提案する。
提案手法では,SLURPの完全微調整に対応するパラメータを8.7%に圧縮することで,手作業による類似のチューニング手法を探索することができる。
論文 参考訳(メタデータ) (2023-10-23T06:43:50Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - Deep Inverse Reinforcement Learning for Route Choice Modeling [0.6853165736531939]
経路選択モデリングは交通計画と需要予測の基本的な課題である。
本研究では,リンクベース経路選択モデルのための一般的な逆強化学習(IRL)フレームワークを提案する。
中国上海のタクシーGPSデータに基づく実験結果から,提案モデルの性能改善を検証した。
論文 参考訳(メタデータ) (2022-06-18T06:33:06Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - PASTO: Strategic Parameter Optimization in Recommendation Systems --
Probabilistic is Better than Deterministic [33.174973495620215]
確率論的戦略パラメータ体系は, 単一の決定論的パラメータを求める標準的手法と比較して, より優れた価値が得られることを示す。
私たちのアプローチは、数億人の日々のユーザーを持つ人気のあるソーシャルネットワークプラットフォームに適用されます。
論文 参考訳(メタデータ) (2021-08-20T09:02:58Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。