論文の概要: Semantic Scheduling for LLM Inference
- arxiv url: http://arxiv.org/abs/2506.12204v1
- Date: Fri, 13 Jun 2025 20:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.403754
- Title: Semantic Scheduling for LLM Inference
- Title(参考訳): LLM推論のためのセマンティックスケジューリング
- Authors: Wenyue Hua, Dujian Ding, Yile Gu, Yujie Ren, Kai Mei, Minghua Ma, William Yang Wang,
- Abstract要約: 大規模言語モデル(LLM)からの要求のスケジューリングにおける意味的スケジューリングの概念を導入する。
LLMベースのプロンプトスケジューリングにおいて、全体の待ち時間を最小化するために、最適な時間複雑性を持つ新しいスケジューリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 48.19648297172146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional operating system scheduling algorithms are largely content-ignorant, making decisions based on factors such as latency or fairness without considering the actual intents or semantics of processes. Consequently, these algorithms often do not prioritize tasks that require urgent attention or carry higher importance, such as in emergency management scenarios. However, recent advances in language models enable semantic analysis of processes, allowing for more intelligent and context-aware scheduling decisions. In this paper, we introduce the concept of semantic scheduling in scheduling of requests from large language models (LLM), where the semantics of the process guide the scheduling priorities. We present a novel scheduling algorithm with optimal time complexity, designed to minimize the overall waiting time in LLM-based prompt scheduling. To illustrate its effectiveness, we present a medical emergency management application, underscoring the potential benefits of semantic scheduling for critical, time-sensitive tasks. The code and data are available at https://github.com/Wenyueh/latency_optimization_with_priority_constraints.
- Abstract(参考訳): 従来のOSスケジューリングアルゴリズムは、ほとんどコンテントに依存しておらず、プロセスの実際の意図や意味を考慮せずに、レイテンシや公平性などの要因に基づいて決定する。
したがって、これらのアルゴリズムは緊急注意を要するタスクや、緊急管理シナリオのようなより重要なタスクを優先しないことが多い。
しかし、近年の言語モデルの発展により、プロセスのセマンティック分析が可能になり、よりインテリジェントでコンテキスト対応のスケジューリング決定が可能になる。
本稿では,大規模言語モデル (LLM) からの要求のスケジューリングにおけるセマンティックスケジューリングの概念を紹介する。
LLMベースのプロンプトスケジューリングにおいて、全体の待ち時間を最小化するために、最適な時間複雑性を持つ新しいスケジューリングアルゴリズムを提案する。
その効果を説明するために,重要な時間に敏感なタスクに対するセマンティックスケジューリングの潜在的なメリットを裏付ける医療用緊急管理アプリケーションを提案する。
コードとデータはhttps://github.com/Wenyueh/latency_optimization_with_priority_constraintsで公開されている。
関連論文リスト
- Haste Makes Waste: Evaluating Planning Abilities of LLMs for Efficient and Feasible Multitasking with Time Constraints Between Actions [56.88110850242265]
本稿では,現実の調理シナリオに基づいた新しいベンチマークフレームワークRecipe2Planを紹介する。
従来のベンチマークとは異なり、Recipe2Planは並列タスク実行による調理時間を最適化するためにエージェントに挑戦する。
論文 参考訳(メタデータ) (2025-03-04T03:27:02Z) - Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.42133807824413]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。
近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。
OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-18T04:11:29Z) - Efficiently Scaling LLM Reasoning with Certaindex [25.549811985276488]
テストタイム推論アルゴリズムは、精度を向上することなく、多くのトークンを無駄に生成することができる。
本稿では,アルゴリズムに依存しない測定値であるCertaindexを導入する。
Certaindexは軽量で、早期終了による推論プログラムの推論を加速し、動的トークン割り当てを可能にする。
論文 参考訳(メタデータ) (2024-12-30T14:57:53Z) - Dependency-Aware CAV Task Scheduling via Diffusion-Based Reinforcement Learning [12.504232513881828]
動的無人航空機支援型コネクテッド自動運転車(CAV)のための新しい依存性を考慮したタスクスケジューリング手法を提案する。
平均タスク完了時間を最小化することを目的として,共同スケジューリング優先度とサブタスク割り当て最適化問題を定式化する。
本稿では,Synthetic DDQNをベースとしたSubtasks Schedulingという拡散型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-27T11:07:31Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - The Road Less Scheduled [45.01813613035411]
最適化停止ステップTの仕様を必要としない既存の学習率スケジュールは、Tに依存する学習率スケジュールにより大幅に改善される。
本稿では,スケジュールを全面的に活用することで,この停止時間を回避するアプローチを提案する。
我々のスケジュール自由アプローチは運動量を持つ標準スケジュールに余分なハイパーパラメータを導入しない。
論文 参考訳(メタデータ) (2024-05-24T16:20:46Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Semantic-aware Transmission Scheduling: a Monotonicity-driven Deep
Reinforcement Learning Approach [39.681075180578986]
6G時代のサイバー物理システムでは、アプリケーションレベルの性能を保証するためにセマンティック通信が必要である。
本稿では,まず,最適なセマンティック・アウェア・スケジューリング・ポリシーの基本的特性について検討する。
そこで我々は,理論ガイドラインを活用することにより,高度な深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-23T05:45:22Z) - Common Language for Goal-Oriented Semantic Communications: A Curriculum
Learning Framework [66.81698651016444]
目標指向タスク実行を実現するための包括的セマンティックコミュニケーションフレームワークを提案する。
カリキュラム学習(CL)と強化学習(RL)を組み合わせた新しいトップダウンフレームワークを提案する。
シミュレーションの結果,提案手法は,学習中の収束時間,タスク実行時間,送信コストにおいて従来のRLよりも優れていた。
論文 参考訳(メタデータ) (2021-11-15T19:13:55Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Scheduling Plans of Tasks [0.0]
タスクのスケジューリング計画の問題を解決するアルゴリズムを提案する。
提案アルゴリズムは,計画計画数を最大化する実行可能なスケジュールを探索する。
論文 参考訳(メタデータ) (2021-02-06T10:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。