Fugu-MT 論文翻訳(概要): Adaptive LLM Routing under Budget Constraints

論文の概要: Adaptive LLM Routing under Budget Constraints

arxiv url: http://arxiv.org/abs/2508.21141v2
Date: Tue, 09 Sep 2025 09:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-10 14:38:26.945318
Title: Adaptive LLM Routing under Budget Constraints
Title（参考訳）: 予算制約下における適応LDMルーティング
Authors: Pranoy Panda, Raghav Magazine, Chaitanya Devaguptapu, Sho Takemori, Vishal Sharma,
Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その様々な能力とコストは、実用的なアプリケーションにおいて課題を引き起こしている。従来のアプローチでは、最適なクエリ-LLMペアリングの完全な知識を前提として、これを教師付き学習問題として扱う。本稿では,LLMルーティングを文脈的帯域幅問題として検討し,帯域幅フィードバックを用いて適応的な意思決定を可能にすることを提案する。
参考スコア（独自算出の注目度）: 12.432635540782874
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その様々な能力とコストは、実用的なアプリケーションにおいて課題を引き起こしている。 LLMルーティングは、クエリ/タスク毎に最も適したLLMを動的に選択することで、この問題に対処する。従来のアプローチでは、最適なクエリ-LLMペアリングの完全な知識を前提として、これを教師付き学習問題として扱う。しかし、現実世界のシナリオには、このような包括的なマッピングや、進化するユーザクエリがない。そこで我々は,LLMルーティングを文脈的帯域幅問題として検討し,全てのクエリに対して全LLMに対して徹底的な推論を必要とすることなく,帯域幅フィードバックによる適応的な意思決定を可能にすることを提案する。この問題に対処するために、クエリとLLMの共有埋め込みスペースを開発し、クエリとLLMの埋め込みがそれらの親和性を反映するように整列されている。この空間は最初、オフラインの人間の嗜好データから学習され、オンラインの盗聴フィードバックを通じて洗練される。我々は、LinUCBの新規拡張であるPreference-prior Informed Linucb fOr Adaptive RouTing (PILOT)を通じて、このアイデアをインスタンス化する。モデルルーティングのための多様なユーザ予算を処理するため,複数選択のknapsack問題としてモデル化されたオンラインコストポリシを導入し,資源効率の確保を図る。

論文の概要: Adaptive LLM Routing under Budget Constraints

関連論文リスト