Fugu-MT 論文翻訳(概要): Cost-Effective Online Multi-LLM Selection with Versatile Reward Models

論文の概要: Cost-Effective Online Multi-LLM Selection with Versatile Reward Models

arxiv url: http://arxiv.org/abs/2405.16587v2
Date: Wed, 02 Oct 2024 13:22:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 01:14:12.81305
Title: Cost-Effective Online Multi-LLM Selection with Versatile Reward Models
Title（参考訳）: ヴァーサタイルリワードモデルを用いた費用対効果オンラインマルチLLM選択
Authors: Xiangxiang Dai, Jin Li, Xutong Liu, Anqi Yu, John C. S. Lui,
Abstract要約: 大規模言語モデル (LLM) を選択・使用するためのオンラインモデルである textitC2MAB-V を導入する。 textitC2MAB-Vは、様々な報酬モデルを持つ様々な協調タスクタイプに特化している。 textitC2MAB-Vは,3つのアプリケーションシナリオに対して,性能とコスト効率を9つのLLMと効果的にバランスさせることを示す。
参考スコア（独自算出の注目度）: 30.892090566736652
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid advancement of large language models (LLMs), the diversity of multi-LLM tasks and the variability in their pricing structures have become increasingly important, as costs can vary greatly between different LLMs. To tackle these challenges, we introduce the \textit{C2MAB-V}, a \underline{C}ost-effective \underline{C}ombinatorial \underline{M}ulti-armed \underline{B}andit with \underline{V}ersatile reward models for optimal LLM selection and usage. This online model differs from traditional static approaches or those reliant on a single LLM without cost consideration. With multiple LLMs deployed on a scheduling cloud and a local server dedicated to handling user queries, \textit{C2MAB-V} facilitates the selection of multiple LLMs over a combinatorial search space, specifically tailored for various collaborative task types with different reward models. Based on our designed online feedback mechanism and confidence bound technique, \textit{C2MAB-V} can effectively address the multi-LLM selection challenge by managing the exploration-exploitation trade-off across different models, while also balancing cost and reward for diverse tasks. The NP-hard integer linear programming problem for selecting multiple LLMs with trade-off dilemmas is addressed by: i) decomposing the integer problem into a relaxed form by the local server, ii) utilizing a discretization rounding scheme that provides optimal LLM combinations by the scheduling cloud, and iii) continual online updates based on feedback. Theoretically, we prove that \textit{C2MAB-V} offers strict guarantees over versatile reward models, matching state-of-the-art results for regret and violations in some degenerate cases. Empirically, we show that \textit{C2MAB-V} effectively balances performance and cost-efficiency with nine LLMs for three application scenarios.
Abstract（参考訳）: 大規模言語モデル (LLM) の急速な進歩により, 複数LLMタスクの多様性と価格構造の変化がますます重要になり, コストは異なるLLM間で大きく異なる。これらの課題に対処するために、最適LLM選択と使用のために、 \textit{C2MAB-V}, a \underline{C}ost- Effective \underline{C}ombinatorial \underline{M}ulti-armed \underline{B}andit with \underline{V}ersatile reward modelを導入する。このオンラインモデルは、従来の静的アプローチや、コストを考慮せずに単一のLCMに依存しているものとは異なる。スケジューリングクラウドとユーザクエリ処理専用のローカルサーバに複数のLLMを配置することにより,組み合わせ検索空間上での複数のLLMの選択が容易になる。設計したオンラインフィードバック機構と信頼性バウンド技術に基づいて,さまざまなモデル間の探索・探索トレードオフを管理するとともに,さまざまなタスクに対するコストと報酬のバランスをとることで,マルチLLM選択の課題に効果的に対処することができる。トレードオフジレンマで複数の LLM を選択するためのNP-hard 整数線形計画問題に、次のように対処する。一整数問題をローカルサーバにより緩和形式に分解すること。二スケジューリングクラウドによる最適なLCM組合せを提供する離散化ラウンドリング方式の利用及び三フィードバックに基づく継続的なオンライン更新理論的には, <textit{C2MAB-V} は, 万能報酬モデルに対する厳密な保証を提供し, 後悔や不当な事例に対する最先端の結果と一致することを証明している。実験により,3つのアプリケーションシナリオに対して, 性能とコスト効率を9つのLLMと効果的にバランスさせることを示した。

関連論文リスト

A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文参考訳（メタデータ） (2025-05-06T05:32:46Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Local-Cloud Inference Offloading for LLMs in Multi-Modal, Multi-Task, Multi-Dialogue Settings [25.184186431458862]
大規模言語モデル(LLM)は、複数の対話やマルチモーダルデータソースを通じてマルチタスク解決能力を示すことができる。 LLMのこれらのユニークな特徴は、その大きなモデルサイズとともに、そのデプロイメントをより困難にしている。我々は,マルチモーダル,マルチタスク,マルチ対話という3次元オフロードを備えたローカルクラウドLLM推論システムであるTMOを設計する。
論文参考訳（メタデータ） (2025-02-16T06:18:28Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文参考訳（メタデータ） (2025-02-04T22:09:43Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
LLM Chain Ensembles for Scalable and Accurate Data Annotation [1.7388851660609117]
大規模言語モデル(LLM)はゼロショット分類を行うことができるが、大規模デプロイメントは高価である。本稿では,複数のLLMを列に並べたLLMチェーンアンサンブル手法を提案し,データサブセットをその後のモデルにルーティングする。以上の結果から,チェーンアンサンブル法は,チェーン内の最高の個々のモデルの性能を上回り,大幅なコスト削減を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-16T20:03:51Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文参考訳（メタデータ） (2024-07-11T05:38:15Z)
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T07:12:06Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.450141240227484]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文参考訳（メタデータ） (2024-02-16T09:06:06Z)
Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-08T10:47:24Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-10-13T11:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。