論文の概要: Harmonizing Real-Time Constraints and Long-Horizon Reasoning: An Asynchronous Agentic Framework for Dynamic Scheduling
- arxiv url: http://arxiv.org/abs/2605.29262v1
- Date: Thu, 28 May 2026 02:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.557241
- Title: Harmonizing Real-Time Constraints and Long-Horizon Reasoning: An Asynchronous Agentic Framework for Dynamic Scheduling
- Title(参考訳): リアルタイム制約の調和と長距離推論:動的スケジューリングのための非同期エージェントフレームワーク
- Authors: Shijie Cao, Yuan Yuan, Jing Liu,
- Abstract要約: RACE-Schedは、ポリシー実行を論理的推論から二重ストリームアーキテクチャを通して分離するエージェントベースのフレームワークである。
このアプローチは、より優れた解品質と動的事象への堅牢な適応を達成するために、長期水平推論とリアルタイム制約を調和させる。
- 参考スコア(独自算出の注目度): 11.212756680882444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Dynamic Flexible Job Shop Scheduling Problem (DFJSP) necessitates a trade-off between instant reaction to stochastic disturbances and global optimization of production goals. Conventional priority rules are insufficiently flexible to handle complex disruptions, whereas learning-based approaches often compromise interpretability or fail to generalize across problem scales. Although Large Language Models (LLMs) offer advanced reasoning capabilities to bridge this gap, their substantial inference latency is incompatible with the millisecond-level decision cycles of industrial control systems. To resolve this conflict, we introduce RACE-Sched, an asynchronous agent-based framework that decouples policy execution from logical reasoning via a dual-stream architecture. The Reactive Stream executes low-latency symbolic heuristics to enable real-time dispatching, while the parallel Deliberative Stream leverages an LLM to synthesize, validate, and evolve these rules. Candidate rules undergo rigorous testing in a sandbox and are deployed via atomic updates, ensuring safety without blocking the control loop. Additionally, a semantic rule repository indexes validated heuristics for retrieval-based initialization which enhances transferability across problem scales. Extensive evaluations on GEN-Bench, MK-Bench, and JMS-Bench demonstrate that RACE-Sched outperforms leading Deep Reinforcement Learning and other LLM-based baselines. This approach harmonizes real-time constraints with long-horizon reasoning to achieve superior solution quality and robust adaptation to dynamic events.
- Abstract(参考訳): 動的フレキシブルジョブショップスケジューリング問題(DFJSP)は、確率的障害に対する即時反応と生産目標のグローバルな最適化の間のトレードオフを必要とする。
従来の優先ルールは複雑な障害に対処するには不十分な柔軟性があるが、学習ベースのアプローチは解釈可能性や問題スケール全体の一般化に失敗することが多い。
大規模言語モデル(LLM)はこのギャップを埋めるための高度な推論機能を提供するが、その推論遅延は産業制御システムのミリ秒レベルの決定サイクルとは相容れない。
この対立を解決するために,非同期エージェントベースのフレームワークであるRAS-Schedを導入する。
Reactive Streamはリアルタイムディスパッチを可能にするために低レイテンシのシンボリックヒューリスティックを実行し、並列のDeliberative StreamはLLMを活用してこれらのルールを合成、検証、進化させる。
候補ルールはサンドボックス内で厳格なテストを実行し、アトミックな更新を通じてデプロイされ、制御ループをブロックすることなく安全性を保証する。
さらに、セマンティックルールリポジトリインデックスは、問題スケール間の転送可能性を高める検索ベースの初期化のためのヒューリスティックスを検証する。
gen-Bench, MK-Bench, JMS-Benchの大規模評価は, RACE-SchedがDeep Reinforcement Learningや他のLLMベースラインよりも優れていることを示した。
このアプローチは、より優れた解品質と動的事象への堅牢な適応を達成するために、長期水平推論とリアルタイム制約を調和させる。
関連論文リスト
- Generative Spatiotemporal Intent Sequence Recommendation via Implicit Reasoning in Amap [13.548870367532752]
実際のユーザの振る舞いは、多くの場合、分離されたアクションで構成され、代わりに、応答性依存性によって管理されるインテントフローを形成する。
本稿では,複雑な状況下で物理的に整合的に実行可能である意図列を生成することを目的とした生成時シーケンス勧告(GSISR)の課題に焦点をあてる。
本稿では,LLM推論を2つのコンポーネントを通して軽量モデルに内部化する生成フレームワークGPlanを提案する。
論文 参考訳(メタデータ) (2026-05-27T07:27:32Z) - DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents [11.212756680882444]
textbfDynaSchedBenchはDFJSPの診断フレームワークで、インスタンス生成プロセスを厳格に制御する。
パラメータサンプリングに頼る代わりに、新しいスケジュールストレス指標(SSI)を計算し、難易度でインスタンスを階層化するSequential Event-Space Calibrator(SESC)を用いる。
論文 参考訳(メタデータ) (2026-05-26T18:36:54Z) - Decoupled Delay Compensation: Enhancing Pre-trained MARL Policies via Learned Dynamics Filtering [2.0223202343873226]
実世界のマルチエージェント強化学習(MARL)システムは、しばしば古い観測、通信遅延、断続パケット損失の下で運用されなければならない。
本稿では,遅延通信観測を現在の信念状態推定に置き換えるモジュール型実行ステージ状態推定層を提案する。
論文 参考訳(メタデータ) (2026-05-25T19:19:46Z) - Multi-Turn Reasoning LLMs for Task Offloading in Mobile Edge Computing [15.718757401948304]
我々は,MECシステムにおける前向きな意思決定を可能にする生成フレームワークであるCOMLLMを提案する。
COMLLMは、ほぼ最適レイテンシを実現し、ロードバランシングの公平性を向上する。特に、ゼロショットのスケーラビリティを示し、小規模ネットワークでトレーニングされたモデルは、再トレーニングすることなく、より大きく、目に見えないトポロジに一般化することができる。
論文 参考訳(メタデータ) (2026-04-08T14:38:48Z) - Fault-Tolerant Design and Multi-Objective Model Checking for Real-Time Deep Reinforcement Learning Systems [7.759578639008443]
深層強化学習(DRL)は、複雑な意思決定問題を解決するための強力なパラダイムとして登場した。
DRLベースのシステムは、シミュレーションと現実のギャップ、アウト・オブ・ディストリビューション・オブ・ディストリビューションの観察、遅延の重大な影響により、依然として重大な信頼性の問題に直面している。
本稿では,DRLエージェントと代替コントローラ間のリアルタイムスイッチング機構の設計と解析を行うための公式なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T12:08:06Z) - From Completion to Editing: Unlocking Context-Aware Code Infilling via Search-and-Replace Instruction Tuning [81.97788535387286]
本稿では,エージェントによる検証・編集機構を統一された単一パス推論プロセスに内部化するフレームワークを提案する。
最小限のデータで、SRI-Coderは、ChatモデルがBaseモデルの完了性能を上回ることができる。
FIMスタイルのチューニングとは異なり、SRIは一般的なコーディング能力を保持し、標準のFIMに匹敵する推論遅延を維持する。
論文 参考訳(メタデータ) (2026-01-19T20:33:53Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。