Fugu-MT 論文翻訳(概要): Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints

論文の概要: Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints

arxiv url: http://arxiv.org/abs/2603.26796v1
Date: Wed, 25 Mar 2026 22:24:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.621611
Title: Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints
Title（参考訳）: コストと容量制約下における大規模言語モデルのロバストバッチレベルクエリルーティング
Authors: Jelena Markovic-Voronov, Kayhan Behdin, Yuanda Xu, Zhengze Zhou, Zhipeng Wang, Rahul Mazumder,
Abstract要約: 大規模言語モデル(LLM)へのクエリルーティングの問題について検討する。本稿では,各バッチの割り当てを協調的に最適化する,バッチレベルのリソース対応ルーティングフレームワークを提案する。 2つのマルチタスクベンチマークの実験では、非ロバストなベンチマークでは精度が1-14%向上している。
参考スコア（独自算出の注目度）: 18.52522897906341
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the problem of routing queries to large language models (LLMs) under cost, GPU resources, and concurrency constraints. Prior per-query routing methods often fail to control batch-level cost, especially under non-uniform or adversarial batching. To address this, we propose a batch-level, resource-aware routing framework that jointly optimizes model assignment for each batch while respecting cost and model capacity limits. We further introduce a robust variant that accounts for uncertainty in predicted LLM performance, along with an offline instance allocation procedure that balances quality and throughput across multiple models. Experiments on two multi-task LLM benchmarks show that robustness improves accuracy by 1-14% over non-robust counterparts (depending on the performance estimator), batch-level routing outperforms per-query methods by up to 24% under adversarial batching, and optimized instance allocation yields additional gains of up to 3% compared to a non-optimized allocation, all while strictly controlling cost and GPU resource constraints.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)へのクエリをコスト,GPUリソース,並列性制約でルーティングする問題について検討する。以前のクエリごとのルーティング手法は、特に一様でないバッチ処理や逆バッチ処理において、バッチレベルのコストを制御できないことが多い。そこで本研究では,コストとモデル容量の制限を考慮しつつ,各バッチに対するモデル割り当てを協調的に最適化する,バッチレベルのリソース対応ルーティングフレームワークを提案する。さらに,予測LDM性能の不確実性を考慮したロバストなバリエーションと,複数のモデル間で品質とスループットのバランスをとるオフラインインスタンス割り当て手順も導入する。 2つのマルチタスクLCMベンチマークの実験では、ロバストでないものよりもロバスト性は1-14%向上し(性能推定器による)、バッチレベルのルーティングは、逆バッチ処理下で最大24%向上し、最適化されたインスタンスアロケーションは、最適化されていないアロケーションに比べて最大3%向上し、コストとGPUリソースの制約を厳格に制御しながら、ロバストでないものよりも精度が向上している。

関連論文リスト

Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。 AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。 5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文参考訳（メタデータ） (2026-03-13T12:26:05Z)
Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。 ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文参考訳（メタデータ） (2025-10-14T17:51:26Z)
SATER: A Self-Aware and Token-Efficient Approach to Routing and Cascading [39.20076289493037]
本稿では,最短応答の選好最適化と信頼度を考慮した拒絶機構を通じて細管モデルをモデル化する二重モード互換手法SATERを紹介する。 SATERは、前世代のルーティングの性能とカスケードルーティングの効率の両方を改善しながら、冗長な出力と応答時間を著しく削減する。
論文参考訳（メタデータ） (2025-10-04T19:55:36Z)
How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-07-05T17:12:33Z)
OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。