論文の概要: Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling
- arxiv url: http://arxiv.org/abs/2602.08052v1
- Date: Sun, 08 Feb 2026 16:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.954411
- Title: Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling
- Title(参考訳): 多目的非関連並列マシンスケジューリングのためのグラフ強化深層強化学習
- Authors: Bulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek,
- Abstract要約: 本稿では,PPOとグラフニューラルネットワークを用いた深層強化学習フレームワークを提案する。
GNNは、ジョブ、マシン、セットアップの複雑な状態を効果的に表現し、PPOエージェントが直接スケジューリングポリシーを学習できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Unrelated Parallel Machine Scheduling Problem (UPMSP) with release dates, setups, and eligibility constraints presents a significant multi-objective challenge. Traditional methods struggle to balance minimizing Total Weighted Tardiness (TWT) and Total Setup Time (TST). This paper proposes a Deep Reinforcement Learning framework using Proximal Policy Optimization (PPO) and a Graph Neural Network (GNN). The GNN effectively represents the complex state of jobs, machines, and setups, allowing the PPO agent to learn a direct scheduling policy. Guided by a multi-objective reward function, the agent simultaneously minimizes TWT and TST. Experimental results on benchmark instances demonstrate that our PPO-GNN agent significantly outperforms a standard dispatching rule and a metaheuristic, achieving a superior trade-off between both objectives. This provides a robust and scalable solution for complex manufacturing scheduling.
- Abstract(参考訳): Unrelated Parallel Machine Scheduling Problem (UPMSP) with release date, setups, and eligibility constraints is a significant multi-jective challenge。
従来の手法では、TWT(Total Weighted Tardiness)とTST(Total Setup Time)の最小化に苦慮している。
本稿では,PPO(Proximal Policy Optimization)とGNN(Graph Neural Network)を用いた深層強化学習フレームワークを提案する。
GNNは、ジョブ、マシン、セットアップの複雑な状態を効果的に表現し、PPOエージェントが直接スケジューリングポリシーを学習できるようにする。
多目的報酬関数によって導かれるエージェントは、TWTとTSTを同時に最小化する。
ベンチマーク実験の結果,PPO-GNNエージェントは標準ディスパッチルールとメタヒューリスティックを著しく上回り,両者のトレードオフに優れることがわかった。
これにより、複雑な製造スケジュールのための堅牢でスケーラブルなソリューションが提供される。
関連論文リスト
- Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks [0.0]
RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。
RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。
RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
論文 参考訳(メタデータ) (2025-12-03T08:28:40Z) - Cloud-Fog-Edge Collaborative Computing for Sequential MIoT Workflow: A Two-Tier DDPG-Based Scheduling Framework [2.5263430338308557]
Medical Internet of Things(MIoT)は、異質なクラウドフォッグエッジインフラストラクチャ上にデプロイされたシーケンシャルなヘルスケアに対して、厳しいエンドツーエンドのレイテンシ保証を要求する。
本稿では,スケジューリング決定を階層的なプロセスに分解する2層DDPGベースのスケジューリングフレームワークを提案する。
実験の結果、我々のアプローチを検証し、複雑さが増大するにつれて、ベースラインよりもパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2025-10-24T03:58:31Z) - Dependency-Aware Task Offloading in Multi-UAV Assisted Collaborative Mobile Edge Computing [53.88774113545582]
本稿では,新しい無人航空機(UAV)による協調移動エッジコンピューティング(MEC)フレームワークを提案する。
システムコストを最小限に抑え、タスク消費とエネルギー消費のトレードオフを改善することを目的としている。
提案手法はシステムコストを大幅に削減し,タスク消費とエネルギー消費のトレードオフの改善を実現する。
論文 参考訳(メタデータ) (2025-10-23T02:55:40Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.375075345747834]
ReActスタイルフレームワークを用いたLarge Language Model (LLM)ベースのスケジューラ(Reason + Act)
Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。
我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文 参考訳(メタデータ) (2025-05-29T14:25:29Z) - Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。
ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。
A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文 参考訳(メタデータ) (2025-01-09T20:19:01Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。