Fugu-MT 論文翻訳(概要): Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework

論文の概要: Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework

arxiv url: http://arxiv.org/abs/2605.18454v1
Date: Mon, 18 May 2026 14:19:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 23:51:08.413566
Title: Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework
Title（参考訳）: 講演するスケジューリング: 解釈可能なプログラム強化学習フレームワーク
Authors: Chengpeng Hu, Yingqian Zhang, Hendrik Baier,
Abstract要約: ProRLは、新しい解釈可能なプログラム強化学習フレームワークである。可読で編集可能なプログラムポリシーで高速なスケジューリングを実現する。 ProRLはどのスケジューリングルールを選択するかを学び、産業シナリオですでに使われている既存のルールを自然に組み込む。
参考スコア（独自算出の注目度）: 3.903101278501413
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL) has recently emerged as a promising approach to solve combinatorial optimization problems such as job shop scheduling. However, the policies learned by DRL are typically represented by deep neural networks (DNNs), whose opaque neural architectures and non-interpretable policy decisions can lead to critical trust and usability concerns for human decision makers. In addition, the computational requirements of DNNs can further hinder practical deployment in resource constrained environments. In this work, we propose ProRL, a novel interpretable programmatic reinforcement learning framework that achieves high-performance scheduling with human-readable and editable programmatic policies (i.e., programs). We first introduce a domain-specific language for scheduling (DSL-S) to represent scheduling strategies as structured programs. ProRL then explores the program space defined by DSL-S using local search to identify incomplete programs, which are subsequently completed by learning their parameters via Bayesian optimization. ProRL learns which scheduling heuristic rules to select, and hence, it naturally incorporates existing heuristics already used in industrial scenarios. Experiments on widely used benchmark instances demonstrate the strong performance of ProRL against existing heuristics and DRL baselines. Furthermore, ProRL performs well under strongly constrained computational resources, such as training with only 100 episodes. Our code is available at https://github.com/HcPlu/ProRL.
Abstract（参考訳）: 深層強化学習(DRL)は近年,ジョブショップスケジューリングなどの組合せ最適化問題を解くための有望なアプローチとして浮上している。しかし、DRLが学んだポリシーは一般的にディープニューラルネットワーク(DNN)によって表現され、不透明なニューラルネットワークと非解釈可能なポリシー決定は、人間の意思決定者にとって重要な信頼とユーザビリティの懸念をもたらす。さらに、DNNの計算要求により、資源制約のある環境での実践的な展開がさらに妨げられる。本研究では,人間可読かつ編集可能なプログラムポリシー(プログラム)を用いた高性能スケジューリングを実現するための,解釈可能なプログラム強化学習フレームワークであるProRLを提案する。まず、スケジューリング戦略を構造化プログラムとして表現するために、スケジューリングのためのドメイン固有言語(DSL-S)を導入する。 ProRLは、ローカル検索を用いてDSL-Sで定義されたプログラム空間を探索し、不完全なプログラムを識別し、その後ベイズ最適化を通じてパラメータを学習する。 ProRLはどのヒューリスティックルールを選択するかを学ぶため、産業シナリオですでに使われている既存のヒューリスティックを自然に取り入れている。広く使用されているベンチマークインスタンスの実験は、既存のヒューリスティックスやDRLベースラインに対するProRLの強力なパフォーマンスを示している。さらに、ProRLは100エピソードのトレーニングなど、強い制約のある計算資源の下でうまく機能する。私たちのコードはhttps://github.com/HcPlu/ProRL.comで公開されています。

関連論文リスト

Breaking the Computational Barrier: Provably Efficient Actor-Critic for Low-Rank MDPs [53.412166189410904]
低ランクマルコフ決定過程(MDPs)の下で広く採用されているRLオーラクルの階層を確立するために,教師付き学習を計算プロキシとして利用する。本研究の目的は,政策評価にのみ依存する新しい楽観的アクター批判アルゴリズムを提案することである。提案アルゴリズムは,従来の計算コストの高い計画や最適化オーラクルを回避しつつ,既存のサンプル複雑度保証よりも優れていることを示す。
論文参考訳（メタデータ） (2026-05-02T04:46:54Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
Deep reinforcement learning for machine scheduling: Methodology, the state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文参考訳（メタデータ） (2023-10-04T22:45:09Z)
Accelerating Exact Combinatorial Optimization via RL-based Initialization -- A Case Study in Scheduling [1.3053649021965603]
本研究の目的は、最適化問題に対処する機械学習(ML)を用いた革新的なアプローチを開発することである。 1) 粗粒スケジューラとしての解法, 2) 解緩和, 3) ILPによる正確な解法の3つのステップを含む新しい2段階のRL-to-ILPスケジューリングフレームワークを導入する。提案フレームワークは, 正確なスケジューリング手法と比較して, 最大128ドルの高速化を実現しつつ, 同一のスケジューリング性能を示す。
論文参考訳（メタデータ） (2023-08-19T15:52:43Z)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:38:29Z)
LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文参考訳（メタデータ） (2022-09-21T13:21:00Z)
Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文参考訳（メタデータ） (2021-12-30T22:02:42Z)
Learning to Synthesize Programs as Interpretable and Generalizable Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-31T07:03:06Z)
Towards Standardizing Reinforcement Learning Approaches for Stochastic Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。既存の研究は、コードが利用できない複雑なシミュレーションに依存している。から選ぶべきRLの設計の広大な配列があります。モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文参考訳（メタデータ） (2021-04-16T16:07:10Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。