論文の概要: Queueing-Aware Optimization of Reasoning Tokens for Accuracy-Latency Trade-offs in LLM Servers
- arxiv url: http://arxiv.org/abs/2601.10274v1
- Date: Thu, 15 Jan 2026 10:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.10857
- Title: Queueing-Aware Optimization of Reasoning Tokens for Accuracy-Latency Trade-offs in LLM Servers
- Title(参考訳): LLMサーバにおける高精度・レイテンシトレードオフのための推論トークンのキューアウェア最適化
- Authors: Emre Ozbas, Melih Bastopcu,
- Abstract要約: 我々は,1つの大規模言語モデル (LLM) サーバを,$N$の異なるタスクタイプに属するクエリの異種ストリームを提供する。
各タスクタイプに対して、サーバは一定の数の内部思考トークンを割り当て、クエリに費やされる計算労力を決定する。
平均系時間で計算された重み付き平均精度目標を最大化する制約付き最適化問題を定式化する。
- 参考スコア(独自算出の注目度): 4.3400407844814985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a single large language model (LLM) server that serves a heterogeneous stream of queries belonging to $N$ distinct task types. Queries arrive according to a Poisson process, and each type occurs with a known prior probability. For each task type, the server allocates a fixed number of internal thinking tokens, which determines the computational effort devoted to that query. The token allocation induces an accuracy-latency trade-off: the service time follows an approximately affine function of the allocated tokens, while the probability of a correct response exhibits diminishing returns. Under a first-in, first-out (FIFO) service discipline, the system operates as an $M/G/1$ queue, and the mean system time depends on the first and second moments of the resulting service-time distribution. We formulate a constrained optimization problem that maximizes a weighted average accuracy objective penalized by the mean system time, subject to architectural token-budget constraints and queue-stability conditions. The objective function is shown to be strictly concave over the stability region, which ensures existence and uniqueness of the optimal token allocation. The first-order optimality conditions yield a coupled projected fixed-point characterization of the optimum, together with an iterative solution and an explicit sufficient condition for contraction. Moreover, a projected gradient method with a computable global step-size bound is developed to guarantee convergence beyond the contractive regime. Finally, integer-valued token allocations are attained via rounding of the continuous solution, and the resulting performance loss is evaluated in simulation results.
- Abstract(参考訳): 我々は,1つの大規模言語モデル (LLM) サーバを,$N$の異なるタスクタイプに属するクエリの異種ストリームを提供する。
クエリはPoissonプロセスに従って到着し、各タイプは既知の事前確率で発生する。
各タスクタイプに対して、サーバは一定の数の内部思考トークンを割り当て、クエリに費やされる計算労力を決定する。
サービス時間は割り当てられたトークンのおよそアフィン関数に従い、正しい応答の確率は減少するリターンを示す。
ファーストイン、ファーストアウト(FIFO)サービス規律の下では、システムは$M/G/1$キューとして動作し、平均システム時間は、結果のサービス時間分布の第1と第2のモーメントに依存する。
本稿では,アーキテクチャ上のトークン予算制約や待ち行列の安定性条件を条件として,平均システム時間で計算した重み付き平均精度を最大化する制約付き最適化問題を定式化する。
目的関数は、最適なトークン割り当ての存在と一意性を保証する安定領域を厳密に包含していることが示される。
一階最適条件は、反復解と収縮に十分な条件を伴って、最適の射影的不動点特徴づけを与える。
さらに, 計算可能な大域的なステップサイズ境界を持つ射影勾配法を開発し, 縮退条件を超えて収束を保証する。
最後に、整数値のトークン割り当てを連続解の丸めによって達成し、その結果の損失をシミュレーション結果で評価する。
関連論文リスト
- Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - Online Fair Allocation of Perishable Resources [1.4952056744888913]
我々は、標準オンラインフェアアロケーション問題の事実上の動機付け型を考察する。
意思決定者は、一定回数のラウンドを割り当てるために、パーシシブルなリソースの予算を持っている。
目標は、うらやましいほど効率的で効率的なアロケーションのシーケンスを構築することです。
論文 参考訳(メタデータ) (2024-06-04T15:14:10Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Decentralized Multi-Task Online Convex Optimization Under Random Link
Failures [5.513958040574729]
我々は不均一な確率を持つランダムリンク障害に対する頑健な分散型サドルポイントアルゴリズムを開発した。
我々はアルゴリズムと分析を2点の帯域フィードバックシナリオに拡張する。
論文 参考訳(メタデータ) (2024-01-04T00:57:33Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Optimal Admission Control for Multiclass Queues with Time-Varying
Arrival Rates via State Abstraction [16.99621896314678]
我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。
目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。
最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
論文 参考訳(メタデータ) (2022-03-14T12:38:13Z) - Learning to Schedule in Parallel-Server Queues with Stochastic Bilinear Rewards [7.519872646378837]
本稿では,ジョブサーバの割り当てが不確実なマルチクラス並列サーバシステムにおけるスケジューリングの問題について考察する。
我々の目標は、時間軸上でのジョブサーバ割り当ての累積報酬を最大化することで、後悔を最小限に抑えることです。
提案アルゴリズムは,サブリニア・リセット・バウンドとサブリニア平均保持コストを実現する。
論文 参考訳(メタデータ) (2021-12-13T00:37:20Z) - Online Stochastic Optimization with Wasserstein Based Non-stationarity [12.91020811577007]
有限期間の地平線上の複数の予算制約を持つ一般的なオンライン最適化問題を検討する。
意思決定者の目標は、予算制約の対象となる累積報酬を最大化することである。
この定式化は、オンラインリニアプログラミングやネットワーク収益管理を含む幅広いアプリケーションを取り込む。
論文 参考訳(メタデータ) (2020-12-13T04:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。