論文の概要: Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method
- arxiv url: http://arxiv.org/abs/2403.14110v1
- Date: Thu, 21 Mar 2024 03:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:36:52.228296
- Title: Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method
- Title(参考訳): アンサンブル推論法を用いたHuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL)
- Authors: Kyuwon Choi, Cheolkyun Rho, Taeyoun Kim, Daewoo Choi,
- Abstract要約: 本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel reinforcement learning (RL) approach called HAAM-RL (Heuristic Algorithm-based Action Masking Reinforcement Learning) for optimizing the color batching re-sequencing problem in automobile painting processes. The existing heuristic algorithms have limitations in adequately reflecting real-world constraints and accurately predicting logistics performance. Our methodology incorporates several key techniques including a tailored Markov Decision Process (MDP) formulation, reward setting including Potential-Based Reward Shaping, action masking using heuristic algorithms (HAAM-RL), and an ensemble inference method that combines multiple RL models. The RL agent is trained and evaluated using FlexSim, a commercial 3D simulation software, integrated with our RL MLOps platform BakingSoDA. Experimental results across 30 scenarios demonstrate that HAAM-RL with an ensemble inference method achieves a 16.25% performance improvement over the conventional heuristic algorithm, with stable and consistent results. The proposed approach exhibits superior performance and generalization capability, indicating its effectiveness in optimizing complex manufacturing processes. The study also discusses future research directions, including alternative state representations, incorporating model-based RL methods, and integrating additional real-world constraints.
- Abstract(参考訳): 本稿では,自動車塗装工程におけるカラーバッチ再シーケンス問題を最適化するために,HAAM-RL(Huristic Algorithm-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
既存のヒューリスティックアルゴリズムは、現実世界の制約を適切に反映し、ロジスティクスのパフォーマンスを正確に予測する制限がある。
提案手法では,マルコフ決定過程 (MDP) の定式化,ポテンシャルベースリワード整形を含む報酬設定,ヒューリスティックアルゴリズム (HAAM-RL) を用いたアクションマスキング,複数のRLモデルを組み合わせたアンサンブル推論など,いくつかの重要な手法が組み込まれている。
RLエージェントは、当社のRL MLOpsプラットフォームであるBakingSoDAと統合された商用3DシミュレーションソフトウェアであるFlexSimを使用して、トレーニングされ、評価される。
30シナリオにわたる実験結果から,アンサンブル推論手法を用いたHAAM-RLは従来のヒューリスティックアルゴリズムよりも16.25%の性能向上を実現し,安定かつ一貫した結果が得られることが示された。
提案手法は高い性能と一般化能力を示し, 複雑な製造プロセスの最適化に有効であることを示す。
この研究は、代替状態表現、モデルベースのRL手法の導入、さらに実世界の制約の統合など、将来の研究方向性についても論じている。
関連論文リスト
- Model-Free Robust Reinforcement Learning with Sample Complexity Analysis [16.477827600825428]
本稿では,マルチレベルモンテカルロ法を用いたモデルフリーDR-RLアルゴリズムを提案する。
我々は,全変動,チ二乗発散,KL発散によって定義される不確実性集合のアルゴリズムを開発する。
注目すべきは、我々のアルゴリズムは、有限サンプルの複雑さを特徴とする初めてのモデルフリーDR-RLアプローチである。
論文 参考訳(メタデータ) (2024-06-24T19:35:26Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - An Actor-Critic Method for Simulation-Based Optimization [6.261751912603047]
実現可能な空間から最適な設計を選択するためのシミュレーションに基づく最適化問題に焦点をあてる。
政策探索問題としてサンプリングプロセスを定式化し、強化学習(RL)の観点から解を求める。
いくつかの実験は提案アルゴリズムの有効性を検証するために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:04:23Z) - Progressive extension of reinforcement learning action dimension for
asymmetric assembly tasks [7.4642148614421995]
本稿では,RLアルゴリズムの収束を最適化するために,行動次元の漸進的拡張(PEAD)機構を提案する。
結果は,pead法がrlアルゴリズムのデータ効率と時間効率を向上し,安定した報酬を得ることを示す。
論文 参考訳(メタデータ) (2021-04-06T11:48:54Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。