論文の概要: Reward-Based Online LLM Routing via NeuralUCB
- arxiv url: http://arxiv.org/abs/2603.30035v1
- Date: Tue, 31 Mar 2026 17:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.95802
- Title: Reward-Based Online LLM Routing via NeuralUCB
- Title(参考訳): NeuralUCBによるリワード型オンラインLCMルーティング
- Authors: Ming-Hua Tsai, Phat Tran,
- Abstract要約: 我々は、NeuralUCBベースのルーティングポリシーを実装し、RouterBenchで評価する。
実験結果から,提案手法は実用性報酬において,ランダムなベースラインと最小コストのベースラインを一貫して上回ることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the use of NeuralUCB for cost-aware large language model (LLM) routing. Existing routing approaches can be broadly grouped into supervised routing methods and partial-feedback methods, each with different tradeoffs in efficiency and adaptivity. We implement a NeuralUCB-based routing policy and evaluate it on RouterBench under a simulated online setting. Experimental results show that the proposed method consistently outperforms random and min-cost baselines in utility reward. Compared with the max-quality reference, our method achieves substantially lower inference cost while maintaining competitive reward. These findings suggest that NeuralUCB is a promising approach for cost-aware LLM routing, while also highlighting remaining challenges in action discrimination and exploration.
- Abstract(参考訳): 本研究では,コスト認識型大規模言語モデル(LLM)ルーティングにおけるNeuralUCBの使用について検討する。
既存のルーティングアプローチは、教師付きルーティング手法と部分フィードバック手法に広くグループ化することができ、それぞれが効率と適応性の異なるトレードオフを持つ。
我々は、NeuralUCBベースのルーティングポリシーを実装し、LouterBench上でシミュレートされたオンライン設定で評価する。
実験結果から,提案手法は実用性報酬において,ランダムなベースラインと最小コストのベースラインを一貫して上回ることがわかった。
最大品質基準と比較すると,提案手法は競争報酬を維持しつつ,推論コストを大幅に低減する。
以上の結果から,NeuralUCBはLCMルーティングに有望なアプローチであり,行動判別と探索の課題も強調した。
関連論文リスト
- Leveraging Uncertainty Estimation for Efficient LLM Routing [20.67188754368684]
エッジクラウド環境に大規模言語モデル(LLM)をデプロイするには、コストとレスポンス品質のバランスをとるための効率的なルーティング戦略が必要である。
従来のアプローチでは、ベンチマークデータセットから人間の参照データまたは精度メトリクスをルーティング基準として優先順位付けしていた。
我々は、不確実性推定を利用してルーティング決定を最適化する新しいフレームワークである信頼性駆動型LLMルータを提案する。
論文 参考訳(メタデータ) (2025-02-16T07:08:47Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Inverse Optimization for Routing Problems [3.282021317933024]
Inverse Optimization (IO) を用いたルーティング問題における意思決定者の行動学習手法を提案する。
提案手法の柔軟性と実世界の可能性を示し,ルーティング問題における意思決定者の判断から学ぶ。
論文 参考訳(メタデータ) (2023-07-14T14:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。