論文の概要: Robust Dynamic Material Handling via Adaptive Constrained Evolutionary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.16795v1
- Date: Fri, 20 Jun 2025 07:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.365917
- Title: Robust Dynamic Material Handling via Adaptive Constrained Evolutionary Reinforcement Learning
- Title(参考訳): 適応的制約付き進化的強化学習によるロバストな動的材料ハンドリング
- Authors: Chengpeng Hu, Ziming Wang, Bo Yuan, Jialin Liu, Chengqi Zhang, Xin Yao,
- Abstract要約: 本稿では,DMHを解くための適応的制約付き進化的強化学習手法を提案する。
各アクターにアクセスして、スパース報酬や制約違反に対処し、ポリシーの動作を制限する。
8つのトレーニングと8つの目に見えないテストケースの実験は、ACERLの優れた性能を実証した。
- 参考スコア(独自算出の注目度): 20.855516840456367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic material handling (DMH) involves the assignment of dynamically arriving material transporting tasks to suitable vehicles in real time for minimising makespan and tardiness. In real-world scenarios, historical task records are usually available, which enables the training of a decision policy on multiple instances consisting of historical records. Recently, reinforcement learning has been applied to solve DMH. Due to the occurrence of dynamic events such as new tasks, adaptability is highly required. Solving DMH is challenging since constraints including task delay should be satisfied. A feedback is received only when all tasks are served, which leads to sparse reward. Besides, making the best use of limited computational resources and historical records for training a robust policy is crucial. The time allocated to different problem instances would highly impact the learning process. To tackle those challenges, this paper proposes a novel adaptive constrained evolutionary reinforcement learning (ACERL) approach, which maintains a population of actors for diverse exploration. ACERL accesses each actor for tackling sparse rewards and constraint violation to restrict the behaviour of the policy. Moreover, ACERL adaptively selects the most beneficial training instances for improving the policy. Extensive experiments on eight training and eight unseen test instances demonstrate the outstanding performance of ACERL compared with several state-of-the-art algorithms. Policies trained by ACERL can schedule the vehicles while fully satisfying the constraints. Additional experiments on 40 unseen noised instances show the robust performance of ACERL. Cross-validation further presents the overall effectiveness of ACREL. Besides, a rigorous ablation study highlights the coordination and benefits of each ingredient of ACERL.
- Abstract(参考訳): 動的物質ハンドリング(DMH)は、スパンとタドネスの最小化のために、動的に到着する物質輸送タスクを適切な車両にリアルタイムで割り当てることを含む。
現実のシナリオでは、歴史的タスクレコードは通常利用可能であり、歴史的レコードで構成される複数のインスタンスに対する決定ポリシーのトレーニングを可能にする。
近年,DMHの解法として強化学習が適用されている。
新しいタスクのような動的なイベントが発生するため、適応性は非常に要求される。
タスク遅延を含む制約を満たす必要があるため、DMHの解決は難しい。
フィードバックはすべてのタスクが提供された時にのみ受信される。
さらに、限られた計算資源と歴史記録をトレーニングに活用する上で、堅牢な政策が不可欠である。
異なる問題インスタンスに割り当てられた時間は、学習プロセスに大きな影響を与えます。
そこで本研究では,アクターの集団を多種多様な探索のために維持する適応的制約付き進化強化学習(ACERL)手法を提案する。
ACERLは各アクターにアクセスしてスパース報酬と制約違反に対処し、ポリシーの動作を制限する。
さらに、ACERLはポリシーを改善する上で最も有益なトレーニングインスタンスを適応的に選択する。
8つのトレーニングと8つの未確認テストインスタンスに関する大規模な実験は、いくつかの最先端アルゴリズムと比較してACERLの優れた性能を示している。
ACERLによって訓練された政策は、制約を完全に満たしながら車両をスケジュールすることができる。
40個のノイズのあるインスタンスに対する追加実験は、ACERLの堅牢な性能を示している。
クロスバリデーションはACRELの全体的な効果をさらに示す。
さらに、厳格なアブレーション研究は、ACERLの各成分の調整と利益を強調している。
関連論文リスト
- Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Amortized Safe Active Learning for Real-Time Data Acquisition: Pretrained Neural Policies from Simulated Nonparametric Functions [23.406516455945653]
我々は、高価なオンライン計算を事前訓練されたニューラルポリシーで置き換える、償却された安全なALフレームワークを提案する。
我々のフレームワークはモジュール化されており、安全要件を省略することにより、制約のない、時間に敏感なALタスクに適応することができる。
論文 参考訳(メタデータ) (2025-01-26T09:05:52Z) - Active Multi-task Policy Fine-tuning [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。
線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。
CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T16:02:52Z) - A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments [15.959963737956848]
本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。
追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。
多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
論文 参考訳(メタデータ) (2023-12-19T15:39:09Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文 参考訳(メタデータ) (2022-09-19T14:09:07Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Adaptable Automation with Modular Deep Reinforcement Learning and Policy
Transfer [8.299945169799795]
本稿では,タスクのモジュール化と伝達学習の概念に基づいて,ハイパーアクタソフトアクタクリティカル(HASAC)RLフレームワークを開発し,検証する。
HASACフレームワークは、新しい仮想ロボット操作ベンチマークであるMeta-Worldでテストされている。
数値実験により、HASACは、報酬値、成功率、タスク完了時間の観点から、最先端の深部RLアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-27T03:09:05Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。