Fugu-MT 論文翻訳(概要): A study on a Q-Learning algorithm application to a manufacturing assembly problem

論文の概要: A study on a Q-Learning algorithm application to a manufacturing assembly problem

arxiv url: http://arxiv.org/abs/2304.08375v1
Date: Mon, 17 Apr 2023 15:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 14:31:01.109377
Title: A study on a Q-Learning algorithm application to a manufacturing assembly problem
Title（参考訳）: 製造組立問題へのQ-Learningアルゴリズムの適用に関する研究
Authors: Miguel Neves, Miguel Vieira, Pedro Neto
Abstract要約: 本研究では,対象物の集合問題に対する強化学習アルゴリズムの実装に焦点を当てた。環境との連続的な相互作用からQ値の行列(Q-table)を学習することを考慮して,モデルフリーQ-Learningアルゴリズムを適用した。最適化アプローチは、98.3%の時間で最適なアセンブリシーケンスを学習することで、非常に有望な結果を得た。
参考スコア（独自算出の注目度）: 0.8937905773981699
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The development of machine learning algorithms has been gathering relevance to address the increasing modelling complexity of manufacturing decision-making problems. Reinforcement learning is a methodology with great potential due to the reduced need for previous training data, i.e., the system learns along time with actual operation. This study focuses on the implementation of a reinforcement learning algorithm in an assembly problem of a given object, aiming to identify the effectiveness of the proposed approach in the optimisation of the assembly process time. A model-free Q-Learning algorithm is applied, considering the learning of a matrix of Q-values (Q-table) from the successive interactions with the environment to suggest an assembly sequence solution. This implementation explores three scenarios with increasing complexity so that the impact of the Q-Learning\textsc's parameters and rewards is assessed to improve the reinforcement learning agent performance. The optimisation approach achieved very promising results by learning the optimal assembly sequence 98.3% of the times.
Abstract（参考訳）: 機械学習アルゴリズムの開発は、意思決定問題のモデリングの複雑さの増大に対処するために関連づけられている。強化学習(Reinforcement learning)は、従来のトレーニングデータの必要性の低減、すなわちシステムが実際の操作と時間とともに学習するため、大きな可能性を持つ方法論である。本研究は, 対象物の組立問題に対する強化学習アルゴリズムの実装に焦点をあて, 組立プロセス時間の最適化における提案手法の有効性を明らかにすることを目的とする。環境との連続的な相互作用からq値行列(qテーブル)の学習を考慮し、アセンブリシーケンスソリューションを提案するモデルフリーなq学習アルゴリズムを適用する。本実装では,Q-Learning\textscのパラメータと報酬の影響を評価して,強化学習エージェントの性能を向上させるために,複雑さの増大を伴う3つのシナリオを探索する。最適化アプローチは98.3%の時間で最適なアセンブリシーケンスを学習することで非常に有望な結果を得た。

関連論文リスト

Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids [14.389086937116582]
本研究は,有限水平最適制御問題を効率的に解くために,強化学習とモデル予測制御(MPC)を統合するアプローチを提案する。我々のアプローチは、離散変数の決定を連続変数の決定から切り離すことによってこの問題を軽減することを目的としている。提案手法では,MPC制御器のオンライン問題を混合整数線形プログラムから線形プログラムへ簡易化する。
論文参考訳（メタデータ） (2024-09-17T15:17:16Z)
Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文参考訳（メタデータ） (2024-02-08T08:08:23Z)
Deep reinforcement learning applied to an assembly sequence planning problem with user preferences [1.0558951653323283]
本稿では,アセンブリシーケンス計画問題におけるDRL手法の実装に対するアプローチを提案する。提案手法では,RL環境のパラメトリックな動作を導入し,トレーニング時間とサンプル効率を改善する。その結果,人的相互作用を伴う組立シーケンス計画問題への深層強化学習の適用の可能性が示唆された。
論文参考訳（メタデータ） (2023-04-13T14:25:15Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
An Improved Reinforcement Learning Algorithm for Learning to Branch [12.27934038849211]
ブランチ・アンド・バウンド(B&B)は最適化の一般的な方法である。本稿では,新しい強化学習に基づくB&Bアルゴリズムを提案する。提案アルゴリズムの性能を3つの公開研究ベンチマークで評価した。
論文参考訳（メタデータ） (2022-01-17T04:50:11Z)
The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文参考訳（メタデータ） (2021-12-27T02:53:44Z)
End-to-End Constrained Optimization Learning: A Survey [69.22203885491534]
機械学習アーキテクチャとソルバと最適化手法を統合する作業の調査に焦点を当てている。これらのアプローチは、問題に対する迅速、近似、構造的、解決策を予測し、論理的推論を可能にする新しいハイブリッド機械学習と最適化手法を開発することを約束します。
論文参考訳（メタデータ） (2021-03-30T14:19:30Z)
A Two-stage Framework and Reinforcement Learning-based Optimization Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文参考訳（メタデータ） (2021-03-10T03:16:12Z)
Automatically Learning Compact Quality-aware Surrogates for Optimization Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文参考訳（メタデータ） (2020-06-18T19:11:54Z)
Active Learning for Gaussian Process Considering Uncertainties with Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文参考訳（メタデータ） (2020-04-23T02:04:53Z)
Model-based Multi-Agent Reinforcement Learning with Cooperative Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2020-01-15T19:13:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。