Fugu-MT 論文翻訳(概要): PickLLM: Context-Aware RL-Assisted Large Language Model Routing

論文の概要: PickLLM: Context-Aware RL-Assisted Large Language Model Routing

arxiv url: http://arxiv.org/abs/2412.12170v1
Date: Thu, 12 Dec 2024 06:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.372852
Title: PickLLM: Context-Aware RL-Assisted Large Language Model Routing
Title（参考訳）: PickLLM: コンテキスト対応RL支援大規模言語モデルルーティング
Authors: Dimitrios Sikeridis, Dennis Ramdass, Pranay Pareek,
Abstract要約: PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
参考スコア（独自算出の注目度）: 0.5325390073522079
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the number of off-the-shelf Large Language Models (LLMs) has exploded with many open-source options. This creates a diverse landscape regarding both serving options (e.g., inference on local hardware vs remote LLM APIs) and model heterogeneous expertise. However, it is hard for the user to efficiently optimize considering operational cost (pricing structures, expensive LLMs-as-a-service for large querying volumes), efficiency, or even per-case specific measures such as response accuracy, bias, or toxicity. Also, existing LLM routing solutions focus mainly on cost reduction, with response accuracy optimizations relying on non-generalizable supervised training, and ensemble approaches necessitating output computation for every considered LLM candidate. In this work, we tackle the challenge of selecting the optimal LLM from a model pool for specific queries with customizable objectives. We propose PickLLM, a lightweight framework that relies on Reinforcement Learning (RL) to route on-the-fly queries to available models. We introduce a weighted reward function that considers per-query cost, inference latency, and model response accuracy by a customizable scoring function. Regarding the learning algorithms, we explore two alternatives: PickLLM router acting as a learning automaton that utilizes gradient ascent to select a specific LLM, or utilizing stateless Q-learning to explore the set of LLMs and perform selection with a $\epsilon$-greedy approach. The algorithm converges to a single LLM for the remaining session queries. To evaluate, we utilize a pool of four LLMs and benchmark prompt-response datasets with different contexts. A separate scoring function is assessing response accuracy during the experiment. We demonstrate the speed of convergence for different learning rates and improvement in hard metrics such as cost per querying session and overall response latency.
Abstract（参考訳）: 最近、既製のLarge Language Models (LLMs) の数は、多くのオープンソースオプションで爆発的に増えている。これにより、サービスオプション(例えば、ローカルハードウェアとリモートLLM APIの推測)とヘテロジニアスな専門知識のモデル化の両方に関して、さまざまな状況が生まれます。しかし、運用コスト(価格構造、大規模クエリボリュームの高価なLLM-as-a-Service)、効率性、あるいは応答精度、バイアス、毒性など、ケースごとの具体的な測定値さえも、効率的に最適化することは困難である。また、既存のLLMルーティングソリューションは主にコスト削減に重点を置いており、応答精度の最適化は一般化不可能な教師付きトレーニングに依存しており、アンサンブルアプローチはLLM候補毎に出力計算を必要とする。本研究では,目的をカスタマイズ可能な特定のクエリに対して,モデルプールから最適なLCMを選択するという課題に取り組む。我々は、RL(Reinforcement Learning)に依存した軽量フレームワークであるPickLLMを提案し、オンザフライクエリを利用可能なモデルにルーティングする。本稿では,クエリ毎のコスト,推論遅延,モデル応答の精度を,カスタマイズ可能なスコアリング関数によって考慮した重み付き報酬関数を提案する。学習アルゴリズムについては、勾配上昇を利用して特定のLLMを選択する学習オートマトンとして機能するPickLLMルータや、ステートレスQラーニングを用いてLLMの集合を探索し、$\epsilon$-greedyアプローチで選択を行う。このアルゴリズムは、残りのセッションクエリに対して単一のLSMに収束する。評価には、4つのLCMのプールと異なるコンテキストのプロンプト応答データセットをベンチマークする。別個のスコアリング関数は、実験中の応答精度を評価する。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。

関連論文リスト

Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文参考訳（メタデータ） (2025-06-06T23:13:08Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文参考訳（メタデータ） (2025-02-04T22:09:43Z)
Smoothie: Label Free Language Model Routing [39.88041397482366]
大規模言語モデル(LLM)は、LLM入力が多くの異なるタスクにまたがるアプリケーションでますます使われている。 Smoothieは、ラベル付きデータを必要としない、監督にインスパイアされた弱いルーティング手法である。 SmoothieのLLMの品質スコアは、地上モデルの品質と相関している。
論文参考訳（メタデータ） (2024-12-06T01:06:37Z)
Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。 LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文参考訳（メタデータ） (2024-10-30T17:02:54Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [20.793892860721712]
MetaLLMは,各クエリを最適大言語モデル(LLM)に動的かつインテリジェントにルーティングするフレームワークである。多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 OpenAI や Together AI などの一般的な LLM プラットフォーム上で実施した実験では,現実世界のシナリオにおいて MetaLLM の有効性を示す。
論文参考訳（メタデータ） (2024-07-15T15:45:07Z)
OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。 OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文参考訳（メタデータ） (2024-05-24T01:05:37Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文参考訳（メタデータ） (2023-06-06T11:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。