論文の概要: Learning to Optimize Job Shop Scheduling Under Structural Uncertainty
- arxiv url: http://arxiv.org/abs/2601.21389v1
- Date: Thu, 29 Jan 2026 08:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.669623
- Title: Learning to Optimize Job Shop Scheduling Under Structural Uncertainty
- Title(参考訳): 構造的不確実性下でのジョブショップスケジューリングを最適化する学習
- Authors: Rui Zhang, Jianwei Niu, Xuefeng Liu, Shaojie Tang, Jing Yuan,
- Abstract要約: ジョブショップスケジューリング問題(JSSP)が最近、かなりの研究注目を集めている。
本稿では,JSSPにおける構造的不確実性(構造的不確実性)について検討する。
この問題を解決するために,UP-AACという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 21.303899039370446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Job-Shop Scheduling Problem (JSSP), under various forms of manufacturing uncertainty, has recently attracted considerable research attention. Most existing studies focus on parameter uncertainty, such as variable processing times, and typically adopt the actor-critic framework. In this paper, we explore a different but prevalent form of uncertainty in JSSP: structural uncertainty. Structural uncertainty arises when a job may follow one of several routing paths, and the selection is determined not by policy, but by situational factors (e.g., the quality of intermediate products) that cannot be known in advance. Existing methods struggle to address this challenge due to incorrect credit assignment: a high-quality action may be unfairly penalized if it is followed by a time-consuming path. To address this problem, we propose a novel method named UP-AAC. In contrast to conventional actor-critic methods, UP-AAC employs an asymmetric architecture. While its actor receives a standard stochastic state, the critic is crucially provided with a deterministic state reconstructed in hindsight. This design allows the critic to learn a more accurate value function, which in turn provides a lower-variance policy gradient to the actor, leading to more stable learning. In addition, we design an attention-based Uncertainty Perception Model (UPM) to enhance the actor's scheduling decisions. Extensive experiments demonstrate that our method outperforms existing approaches in reducing makespan on benchmark instances.
- Abstract(参考訳): 各種製造業の不確実性の下でのジョブショップスケジューリング問題(JSSP)は近年,かなりの研究関心を集めている。
既存の研究のほとんどは、変数処理時間などのパラメータの不確実性に焦点を当てており、アクター批判的なフレームワークを採用するのが一般的である。
本稿では,JSSPにおける構造的不確実性(構造的不確実性)について検討する。
構造的不確実性は、ジョブがいくつかのルーティングパスの1つに従うことができ、選択がポリシーではなく、事前に知ることができない状況要因(例えば中間製品の品質)によって決定されるときに生じる。
既存の方法では、不正なクレジット割り当てのためにこの課題に対処するのに苦労している。
そこで本研究では,UP-AACと呼ばれる新しい手法を提案する。
従来のアクター批判法とは対照的に、UP-AACは非対称アーキテクチャを採用している。
俳優は標準的な確率的状態を受けるが、批評家は、後ろ向きに再構成された決定論的状態が決定的に提供される。
この設計により、批評家はより正確な値関数を学ぶことができ、それによってアクターに対する低分散ポリシー勾配が得られ、より安定した学習につながる。
さらに、アクターのスケジューリング決定を強化するために、注意に基づく不確実性知覚モデル(UPM)を設計する。
大規模な実験により,本手法はベンチマークインスタンスのメースパン削減において,既存の手法よりも優れていることが示された。
関連論文リスト
- Stochastic Actor-Critic: Mitigating Overestimation via Temporal Aleatoric Uncertainty [0.0]
強化学習における非政治的アクター批判的手法は、時間差更新で批判者を訓練し、政策(アクター)の学習信号として利用する
現在の手法では、限られたデータとあいまいさをモデル化して悲観的な更新をスケールするため、批評家の不確かさを定量化するためにアンサンブルを用いている。
本研究では, ベルマンにおける遷移, 報酬, および政策による変動から生じる時間的(1つの)アレータ的不確実性を含む, Actor-C (STAC) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-02T16:33:17Z) - ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景と前景のバイアスプロトコル上で評価し,新しい最先端のバイアスプロトコルを設定し,HMDB51では12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control [41.7453231409493]
Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
論文 参考訳(メタデータ) (2023-03-04T10:52:20Z) - Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics [2.56865487804497]
批判的信頼誘導探索(Critical Confidence Guided Exploration)は、政策の行動を提案として受け取り、この情報を学習スキームに組み込む。
CCGEは, 託宣方針を利用する隣接アルゴリズムに対して, 競合的に動作可能であることを示す。
論文 参考訳(メタデータ) (2022-08-22T18:26:43Z) - Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Learning Value Functions in Deep Policy Gradients using Residual
Variance [22.414430270991005]
ポリシー勾配アルゴリズムは、多様な意思決定と制御タスクで成功している。
従来のアクター批判アルゴリズムは真値関数の適合には成功しない。
我々は、その平均値に対して状態の値を学ぶ新しい状態値関数近似(resp. state-action-value)を提供する。
論文 参考訳(メタデータ) (2020-10-09T08:57:06Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。