論文の概要: Cost-Effective Online Multi-LLM Selection with Versatile Reward Models
- arxiv url: http://arxiv.org/abs/2405.16587v2
- Date: Wed, 02 Oct 2024 13:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:17:45.246193
- Title: Cost-Effective Online Multi-LLM Selection with Versatile Reward Models
- Title(参考訳): ヴァーサタイルリワードモデルを用いた費用対効果オンラインマルチLLM選択
- Authors: Xiangxiang Dai, Jin Li, Xutong Liu, Anqi Yu, John C. S. Lui,
- Abstract要約: 大規模言語モデル (LLM) を選択・使用するためのオンラインモデルである textitC2MAB-V を導入する。
textitC2MAB-Vは、様々な報酬モデルを持つ様々な協調タスクタイプに特化している。
textitC2MAB-Vは,3つのアプリケーションシナリオに対して,性能とコスト効率を9つのLLMと効果的にバランスさせることを示す。
- 参考スコア(独自算出の注目度): 30.892090566736652
- License:
- Abstract: With the rapid advancement of large language models (LLMs), the diversity of multi-LLM tasks and the variability in their pricing structures have become increasingly important, as costs can vary greatly between different LLMs. To tackle these challenges, we introduce the \textit{C2MAB-V}, a \underline{C}ost-effective \underline{C}ombinatorial \underline{M}ulti-armed \underline{B}andit with \underline{V}ersatile reward models for optimal LLM selection and usage. This online model differs from traditional static approaches or those reliant on a single LLM without cost consideration. With multiple LLMs deployed on a scheduling cloud and a local server dedicated to handling user queries, \textit{C2MAB-V} facilitates the selection of multiple LLMs over a combinatorial search space, specifically tailored for various collaborative task types with different reward models. Based on our designed online feedback mechanism and confidence bound technique, \textit{C2MAB-V} can effectively address the multi-LLM selection challenge by managing the exploration-exploitation trade-off across different models, while also balancing cost and reward for diverse tasks. The NP-hard integer linear programming problem for selecting multiple LLMs with trade-off dilemmas is addressed by: i) decomposing the integer problem into a relaxed form by the local server, ii) utilizing a discretization rounding scheme that provides optimal LLM combinations by the scheduling cloud, and iii) continual online updates based on feedback. Theoretically, we prove that \textit{C2MAB-V} offers strict guarantees over versatile reward models, matching state-of-the-art results for regret and violations in some degenerate cases. Empirically, we show that \textit{C2MAB-V} effectively balances performance and cost-efficiency with nine LLMs for three application scenarios.
- Abstract(参考訳): 大規模言語モデル (LLM) の急速な進歩により, 複数LLMタスクの多様性と価格構造の変化がますます重要になり, コストは異なるLLM間で大きく異なる。
これらの課題に対処するために、最適LLM選択と使用のために、 \textit{C2MAB-V}, a \underline{C}ost- Effective \underline{C}ombinatorial \underline{M}ulti-armed \underline{B}andit with \underline{V}ersatile reward modelを導入する。
このオンラインモデルは、従来の静的アプローチや、コストを考慮せずに単一のLCMに依存しているものとは異なる。
スケジューリングクラウドとユーザクエリ処理専用のローカルサーバに複数のLLMを配置することにより,組み合わせ検索空間上での複数のLLMの選択が容易になる。
設計したオンラインフィードバック機構と信頼性バウンド技術に基づいて,さまざまなモデル間の探索・探索トレードオフを管理するとともに,さまざまなタスクに対するコストと報酬のバランスをとることで,マルチLLM選択の課題に効果的に対処することができる。
トレードオフジレンマで複数の LLM を選択するためのNP-hard 整数線形計画問題に、次のように対処する。
一 整数問題をローカルサーバにより緩和形式に分解すること。
二 スケジューリングクラウドによる最適なLCM組合せを提供する離散化ラウンドリング方式の利用及び
三 フィードバックに基づく継続的なオンライン更新
理論的には, <textit{C2MAB-V} は, 万能報酬モデルに対する厳密な保証を提供し, 後悔や不当な事例に対する最先端の結果と一致することを証明している。
実験により,3つのアプリケーションシナリオに対して, 性能とコスト効率を9つのLLMと効果的にバランスさせることを示した。
関連論文リスト
- LLM Chain Ensembles for Scalable and Accurate Data Annotation [1.7388851660609117]
大規模言語モデル(LLM)はゼロショット分類を行うことができるが、大規模デプロイメントは高価である。
本稿では,複数のLLMを列に並べたLLMチェーンアンサンブル手法を提案し,データサブセットをその後のモデルにルーティングする。
以上の結果から,チェーンアンサンブル法は,チェーン内の最高の個々のモデルの性能を上回り,大幅なコスト削減を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-16T20:03:51Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。
しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。
本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.450141240227484]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。
我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。
ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文 参考訳(メタデータ) (2024-02-16T09:06:06Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。
固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。
本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。