論文の概要: Adaptive LLM Routing under Budget Constraints
- arxiv url: http://arxiv.org/abs/2508.21141v2
- Date: Tue, 09 Sep 2025 09:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.945318
- Title: Adaptive LLM Routing under Budget Constraints
- Title(参考訳): 予算制約下における適応LDMルーティング
- Authors: Pranoy Panda, Raghav Magazine, Chaitanya Devaguptapu, Sho Takemori, Vishal Sharma,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その様々な能力とコストは、実用的なアプリケーションにおいて課題を引き起こしている。
従来のアプローチでは、最適なクエリ-LLMペアリングの完全な知識を前提として、これを教師付き学習問題として扱う。
本稿では,LLMルーティングを文脈的帯域幅問題として検討し,帯域幅フィードバックを用いて適応的な意思決定を可能にすることを提案する。
- 参考スコア(独自算出の注目度): 12.432635540782874
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その様々な能力とコストは、実用的なアプリケーションにおいて課題を引き起こしている。
LLMルーティングは、クエリ/タスク毎に最も適したLLMを動的に選択することで、この問題に対処する。
従来のアプローチでは、最適なクエリ-LLMペアリングの完全な知識を前提として、これを教師付き学習問題として扱う。
しかし、現実世界のシナリオには、このような包括的なマッピングや、進化するユーザクエリがない。
そこで我々は,LLMルーティングを文脈的帯域幅問題として検討し,全てのクエリに対して全LLMに対して徹底的な推論を必要とすることなく,帯域幅フィードバックによる適応的な意思決定を可能にすることを提案する。
この問題に対処するために、クエリとLLMの共有埋め込みスペースを開発し、クエリとLLMの埋め込みがそれらの親和性を反映するように整列されている。
この空間は最初、オフラインの人間の嗜好データから学習され、オンラインの盗聴フィードバックを通じて洗練される。
我々は、LinUCBの新規拡張であるPreference-prior Informed Linucb fOr Adaptive RouTing (PILOT)を通じて、このアイデアをインスタンス化する。
モデルルーティングのための多様なユーザ予算を処理するため,複数選択のknapsack問題としてモデル化されたオンラインコストポリシを導入し,資源効率の確保を図る。
関連論文リスト
- Online Multi-LLM Selection via Contextual Bandits under Unstructured Context Evolution [31.385024956599676]
大規模言語モデル(LLM)は多様な応答挙動、コスト、強度を示す。
我々はLinUCBに基づくアルゴリズムを開発し、将来の文脈予測に頼ることなく、確実にサブ線形後悔を実現する。
私たちのアルゴリズムは理論的に根拠があり、オフラインの微調整やデータセット固有のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2025-06-21T10:01:46Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。
提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。
提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文 参考訳(メタデータ) (2025-02-04T22:09:43Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。
私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。
LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T17:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。