論文の概要: Deep Q-Learning versus Proximal Policy Optimization: Performance
Comparison in a Material Sorting Task
- arxiv url: http://arxiv.org/abs/2306.01451v1
- Date: Fri, 2 Jun 2023 11:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:25:16.885098
- Title: Deep Q-Learning versus Proximal Policy Optimization: Performance
Comparison in a Material Sorting Task
- Title(参考訳): Q-Learning vs Proximal Policy Optimization:Material Sorting Taskのパフォーマンス比較
- Authors: Reuf Kozlica, Stefan Wegenkittl, Simon Hirl\"ander
- Abstract要約: 本稿では、DQN(Deep Q-Learning)とPPO(Proximal Policy Optimization)という2つのよく知られた深層強化学習(Deep Reinforcement Learning, RL)アルゴリズムの比較を示す。
ペトリネット(PN)をベースとしたシミュレーション環境を利用する。
- 参考スコア(独自算出の注目度): 1.6536018920603175
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a comparison between two well-known deep Reinforcement
Learning (RL) algorithms: Deep Q-Learning (DQN) and Proximal Policy
Optimization (PPO) in a simulated production system. We utilize a Petri Net
(PN)-based simulation environment, which was previously proposed in related
work. The performance of the two algorithms is compared based on several
evaluation metrics, including average percentage of correctly assembled and
sorted products, average episode length, and percentage of successful episodes.
The results show that PPO outperforms DQN in terms of all evaluation metrics.
The study highlights the advantages of policy-based algorithms in problems with
high-dimensional state and action spaces. The study contributes to the field of
deep RL in context of production systems by providing insights into the
effectiveness of different algorithms and their suitability for different
tasks.
- Abstract(参考訳): 本稿では,DQN(Deep Q-Learning)とPPO(Proximal Policy Optimization)という2つのよく知られた深層強化学習(Deep Reinforcement Learning, RL)アルゴリズムの比較を行った。
これまでに提案してきたペトリネット(pn)ベースのシミュレーション環境を利用する。
2つのアルゴリズムの性能は、正しく組み立てられた製品とソートされた製品の平均パーセンテージ、平均エピソード長、成功したエピソードのパーセンテージなど、いくつかの評価指標に基づいて比較される。
これらの結果から,PPOはDQNよりも高い性能を示した。
この研究は、高次元状態および行動空間の問題におけるポリシーに基づくアルゴリズムの利点を強調した。
この研究は、異なるアルゴリズムの有効性と異なるタスクに対するそれらの適合性に関する洞察を提供することにより、生産システムの文脈における深いRLの分野に寄与する。
関連論文リスト
- Time-Series Forecasting in Smart Manufacturing Systems: An Experimental Evaluation of the State-of-the-art Algorithms [0.0]
TSFは製造を含む様々な領域で成長している。
本研究の目的は、13の製造データセット上でのSoTA TSFアルゴリズムの評価により、このギャップを埋めることである。
論文 参考訳(メタデータ) (2024-11-26T15:10:31Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Deep reinforcement learning applied to an assembly sequence planning
problem with user preferences [1.0558951653323283]
本稿では,アセンブリシーケンス計画問題におけるDRL手法の実装に対するアプローチを提案する。
提案手法では,RL環境のパラメトリックな動作を導入し,トレーニング時間とサンプル効率を改善する。
その結果,人的相互作用を伴う組立シーケンス計画問題への深層強化学習の適用の可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-13T14:25:15Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Towards Applicable Reinforcement Learning: Improving the Generalization
and Sample Efficiency with Policy Ensemble [43.95417785185457]
金融取引やロジスティックシステムといった現実世界の応用において、強化学習アルゴリズムが成功することは困難である。
本稿では,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization (EPPO)を提案する。
EPPOは、バニラポリシー最適化アルゴリズムやその他のアンサンブル手法と比較して、より効率が高く、現実世界のアプリケーションにとって堅牢である。
論文 参考訳(メタデータ) (2022-05-19T02:25:32Z) - A survey on multi-objective hyperparameter optimization algorithms for
Machine Learning [62.997667081978825]
本稿では,多目的HPOアルゴリズムに関する2014年から2020年にかけての文献を体系的に調査する。
メタヒューリスティック・ベース・アルゴリズムとメタモデル・ベース・アルゴリズム,および両者を混合したアプローチを区別する。
また,多目的HPO法と今後の研究方向性を比較するための品質指標についても論じる。
論文 参考訳(メタデータ) (2021-11-23T10:22:30Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。