論文の概要: Deep reinforcement learning applied to an assembly sequence planning
problem with user preferences
- arxiv url: http://arxiv.org/abs/2304.06567v1
- Date: Thu, 13 Apr 2023 14:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 14:06:32.209169
- Title: Deep reinforcement learning applied to an assembly sequence planning
problem with user preferences
- Title(参考訳): ユーザ好みのアセンブリシーケンス計画問題への深層強化学習の適用
- Authors: Miguel Neves, Pedro Neto
- Abstract要約: 本稿では,アセンブリシーケンス計画問題におけるDRL手法の実装に対するアプローチを提案する。
提案手法では,RL環境のパラメトリックな動作を導入し,トレーニング時間とサンプル効率を改善する。
その結果,人的相互作用を伴う組立シーケンス計画問題への深層強化学習の適用の可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.0558951653323283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has demonstrated its potential in solving
complex manufacturing decision-making problems, especially in a context where
the system learns over time with actual operation in the absence of training
data. One interesting and challenging application for such methods is the
assembly sequence planning (ASP) problem. In this paper, we propose an approach
to the implementation of DRL methods in ASP. The proposed approach introduces
in the RL environment parametric actions to improve training time and sample
efficiency and uses two different reward signals: (1) user's preferences and
(2) total assembly time duration. The user's preferences signal addresses the
difficulties and non-ergonomic properties of the assembly faced by the human
and the total assembly time signal enforces the optimization of the assembly.
Three of the most powerful deep RL methods were studied, Advantage Actor-Critic
(A2C), Deep Q-Learning (DQN), and Rainbow, in two different scenarios: a
stochastic and a deterministic one. Finally, the performance of the DRL
algorithms was compared to tabular Q-Learnings performance. After 10,000
episodes, the system achieved near optimal behaviour for the algorithms tabular
Q-Learning, A2C, and Rainbow. Though, for more complex scenarios, the algorithm
tabular Q-Learning is expected to underperform in comparison to the other 2
algorithms. The results support the potential for the application of deep
reinforcement learning in assembly sequence planning problems with human
interaction.
- Abstract(参考訳): 深部強化学習(DRL)は、複雑な製造決定問題、特に訓練データがない状態で実際の運用で時間とともに学習する状況において、その可能性を実証している。
このような手法の興味深い挑戦的な応用の1つはアセンブリ・シーケンス・プランニング(ASP)問題である。
本稿では,ASP.NET における DRL メソッドの実装に対するアプローチを提案する。
提案手法は,学習時間とサンプル効率を改善するためのRL環境パラメトリック動作を導入し,(1)ユーザの好みと(2)総組立時間という2つの異なる報酬信号を用いた。
ユーザの選好信号は、人間が直面するアセンブリの難易度と非人間工学的特性に対処し、全アセンブリタイム信号はアセンブリの最適化を強制する。
最も強力なRL法であるアドバンテージ・アクター・クリティカル(A2C)、ディープQラーニング(DQN)、レインボー(Rainbow)の3つを確率的および決定論的シナリオで研究した。
最後に,DRLアルゴリズムの性能を表付きQ-Learningの性能と比較した。
1万回のエピソードの後、システムはアルゴリズムの表型q-learning、a2c、レインボーに対してほぼ最適な動作を達成した。
しかし、より複雑なシナリオでは、他の2つのアルゴリズムと比較して、グラフ付きQ-Learningは性能が劣ると予想されている。
その結果,人間のインタラクションを伴うアセンブリシーケンス計画問題に対する深層強化学習の適用の可能性が示唆された。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Accelerating Exact Combinatorial Optimization via RL-based
Initialization -- A Case Study in Scheduling [1.3053649021965603]
本研究の目的は、最適化問題に対処する機械学習(ML)を用いた革新的なアプローチを開発することである。
1) 粗粒スケジューラとしての解法, 2) 解緩和, 3) ILPによる正確な解法の3つのステップを含む新しい2段階のRL-to-ILPスケジューリングフレームワークを導入する。
提案フレームワークは, 正確なスケジューリング手法と比較して, 最大128ドルの高速化を実現しつつ, 同一のスケジューリング性能を示す。
論文 参考訳(メタデータ) (2023-08-19T15:52:43Z) - A study on a Q-Learning algorithm application to a manufacturing
assembly problem [0.8937905773981699]
本研究では,対象物の集合問題に対する強化学習アルゴリズムの実装に焦点を当てた。
環境との連続的な相互作用からQ値の行列(Q-table)を学習することを考慮して,モデルフリーQ-Learningアルゴリズムを適用した。
最適化アプローチは、98.3%の時間で最適なアセンブリシーケンスを学習することで、非常に有望な結果を得た。
論文 参考訳(メタデータ) (2023-04-17T15:38:34Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。
高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。
我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文 参考訳(メタデータ) (2020-11-09T10:57:21Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。