論文の概要: Semantic Scheduling for LLM Inference
- arxiv url: http://arxiv.org/abs/2506.12204v1
- Date: Fri, 13 Jun 2025 20:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.403754
- Title: Semantic Scheduling for LLM Inference
- Title(参考訳): LLM推論のためのセマンティックスケジューリング
- Authors: Wenyue Hua, Dujian Ding, Yile Gu, Yujie Ren, Kai Mei, Minghua Ma, William Yang Wang,
- Abstract要約: 大規模言語モデル(LLM)からの要求のスケジューリングにおける意味的スケジューリングの概念を導入する。
LLMベースのプロンプトスケジューリングにおいて、全体の待ち時間を最小化するために、最適な時間複雑性を持つ新しいスケジューリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 48.19648297172146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional operating system scheduling algorithms are largely content-ignorant, making decisions based on factors such as latency or fairness without considering the actual intents or semantics of processes. Consequently, these algorithms often do not prioritize tasks that require urgent attention or carry higher importance, such as in emergency management scenarios. However, recent advances in language models enable semantic analysis of processes, allowing for more intelligent and context-aware scheduling decisions. In this paper, we introduce the concept of semantic scheduling in scheduling of requests from large language models (LLM), where the semantics of the process guide the scheduling priorities. We present a novel scheduling algorithm with optimal time complexity, designed to minimize the overall waiting time in LLM-based prompt scheduling. To illustrate its effectiveness, we present a medical emergency management application, underscoring the potential benefits of semantic scheduling for critical, time-sensitive tasks. The code and data are available at https://github.com/Wenyueh/latency_optimization_with_priority_constraints.
- Abstract(参考訳): 従来のOSスケジューリングアルゴリズムは、ほとんどコンテントに依存しておらず、プロセスの実際の意図や意味を考慮せずに、レイテンシや公平性などの要因に基づいて決定する。
したがって、これらのアルゴリズムは緊急注意を要するタスクや、緊急管理シナリオのようなより重要なタスクを優先しないことが多い。
しかし、近年の言語モデルの発展により、プロセスのセマンティック分析が可能になり、よりインテリジェントでコンテキスト対応のスケジューリング決定が可能になる。
本稿では,大規模言語モデル (LLM) からの要求のスケジューリングにおけるセマンティックスケジューリングの概念を紹介する。
LLMベースのプロンプトスケジューリングにおいて、全体の待ち時間を最小化するために、最適な時間複雑性を持つ新しいスケジューリングアルゴリズムを提案する。
その効果を説明するために,重要な時間に敏感なタスクに対するセマンティックスケジューリングの潜在的なメリットを裏付ける医療用緊急管理アプリケーションを提案する。
コードとデータはhttps://github.com/Wenyueh/latency_optimization_with_priority_constraintsで公開されている。
関連論文リスト
- Efficiently Scaling LLM Reasoning with Certaindex [25.549811985276488]
テストタイム推論アルゴリズムは、精度を向上することなく、多くのトークンを無駄に生成することができる。
本稿では,アルゴリズムに依存しない測定値であるCertaindexを導入する。
Certaindexは軽量で、早期終了による推論プログラムの推論を加速し、動的トークン割り当てを可能にする。
論文 参考訳(メタデータ) (2024-12-30T14:57:53Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - The Road Less Scheduled [45.01813613035411]
最適化停止ステップTの仕様を必要としない既存の学習率スケジュールは、Tに依存する学習率スケジュールにより大幅に改善される。
本稿では,スケジュールを全面的に活用することで,この停止時間を回避するアプローチを提案する。
我々のスケジュール自由アプローチは運動量を持つ標準スケジュールに余分なハイパーパラメータを導入しない。
論文 参考訳(メタデータ) (2024-05-24T16:20:46Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Semantic-aware Transmission Scheduling: a Monotonicity-driven Deep
Reinforcement Learning Approach [39.681075180578986]
6G時代のサイバー物理システムでは、アプリケーションレベルの性能を保証するためにセマンティック通信が必要である。
本稿では,まず,最適なセマンティック・アウェア・スケジューリング・ポリシーの基本的特性について検討する。
そこで我々は,理論ガイドラインを活用することにより,高度な深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-23T05:45:22Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。