論文の概要: Scheduling Distributed Flexible Assembly Lines using Safe Reinforcement
Learning with Soft Shielding
- arxiv url: http://arxiv.org/abs/2311.12572v1
- Date: Tue, 21 Nov 2023 12:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 00:39:41.615150
- Title: Scheduling Distributed Flexible Assembly Lines using Safe Reinforcement
Learning with Soft Shielding
- Title(参考訳): ソフトシールドを用いた安全強化学習による分散フレキシブルアセンブリラインのスケジューリング
- Authors: Lele Li and Liyong Lin
- Abstract要約: 分散フレキシブルアセンブリラインのスケジューリング問題に, リアルタイムに対処するために, アクタ批判に基づく強化学習手法を提案する。
モンテカルロ木探索に基づくソフトシールドコンポーネントが開発され、長いシーケンス依存の安全でない振る舞いに対処し、過剰なスケジューリングのリスクを監視する。
- 参考スコア(独自算出の注目度): 0.14504054468850663
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Highly automated assembly lines enable significant productivity gains in the
manufacturing industry, particularly in mass production condition. Nonetheless,
challenges persist in job scheduling for make-to-job and mass customization,
necessitating further investigation to improve efficiency, reduce tardiness,
promote safety and reliability. In this contribution, an advantage actor-critic
based reinforcement learning method is proposed to address scheduling problems
of distributed flexible assembly lines in a real-time manner. To enhance the
performance, a more condensed environment representation approach is proposed,
which is designed to work with the masks made by priority dispatching rules to
generate fixed and advantageous action space. Moreover, a Monte-Carlo tree
search based soft shielding component is developed to help address
long-sequence dependent unsafe behaviors and monitor the risk of overdue
scheduling. Finally, the proposed algorithm and its soft shielding component
are validated in performance evaluation.
- Abstract(参考訳): 高度に自動化された組立ラインは製造業、特に大量生産条件において、大幅な生産性向上を可能にしている。
それでも、メイク・ツー・ジョブのジョブスケジューリングや大量カスタマイズには課題が続き、効率の向上、難易度低減、安全性と信頼性の向上のためにさらなる調査が必要である。
本報告では,分散フレキシブルアセンブリラインのスケジューリング問題にリアルタイムに対処するために,アクタ批判に基づく強化学習手法を提案する。
そこで,より凝縮した環境表現手法を提案する。この手法は,優先度ディスパッチルールによるマスクと協調して,固定的かつ有利な行動空間を生成する。
さらに, モンテカルロ木探索に基づくソフトシールドコンポーネントを開発し, 長時間依存する安全でない動作に対処し, 過度なスケジューリングのリスクを監視する。
最後に,提案するアルゴリズムとそのソフト遮蔽成分を性能評価で検証する。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Enhancing Attack Resilience in Real-Time Systems through Variable Control Task Sampling Rates [2.238622204691961]
各種制御タスクのサンプリングレートに対する有効なスケジュール間の実行時切替を可能にする新しいスケジュール脆弱性解析手法を提案する。
本稿では、リアルタイムシステムにおけるタイミング推定攻撃の成功率を低減するために、固定優先度スケジューラのためのマルチレートアタック・アウェア・ランダム化スケジューリング(MAARS)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-01T07:25:15Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Accelerate Presolve in Large-Scale Linear Programming via Reinforcement
Learning [92.31528918811007]
本稿では,P1)-(P3) を同時に扱うための簡易かつ効率的な強化学習フレームワーク,すなわち,事前解決のための強化学習(RL4Presolve)を提案する。
2つの解法と8つのベンチマーク(実世界と合成)の実験により、RL4Presolveは大規模LPの解法効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-10-18T09:51:59Z) - dugMatting: Decomposed-Uncertainty-Guided Matting [83.71273621169404]
そこで本稿では, 明確に分解された不確かさを探索し, 効率よく効率よく改善する, 分解不確実性誘導型マッチングアルゴリズムを提案する。
提案したマッチングフレームワークは,シンプルで効率的なラベリングを用いて対話領域を決定する必要性を緩和する。
論文 参考訳(メタデータ) (2023-06-02T11:19:50Z) - Adaptive Real Time Exploration and Optimization for Safety-Critical
Systems [0.0]
安全制約を考慮したプログラミング問題として,マルチアームバンディットを用いたARTEOアルゴリズムを提案する。
最適化入力の変化と探索を通して環境特性を学習する。
既存のセーフラーニング手法と比較して、我々のアルゴリズムは排他的な探索フェーズを必要とせず、探索点においても最適化目標に従う。
論文 参考訳(メタデータ) (2022-11-10T11:37:22Z) - Provably Safe Reinforcement Learning via Action Projection using
Reachability Analysis and Polynomial Zonotopes [9.861651769846578]
リーチ回避タスクを解く非線形連続システムの安全シールドを開発する。
我々の手法はアクションプロジェクションと呼ばれ、混合整数最適化によって実装されている。
アクションプロジェクションの他の手法とは対照的に、我々の安全シールドは入力制約や障害物を効率的に処理できる。
論文 参考訳(メタデータ) (2022-10-19T16:06:12Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Distributional Reinforcement Learning for Scheduling of (Bio)chemical
Production Processes [0.0]
強化学習(Reinforcement Learning, RL)は、最近、プロセスシステム工学と制御コミュニティから大きな注目を集めている。
本稿では,生産スケジューリング問題に共通して課される優先的制約と解離的制約に対処するRL手法を提案する。
論文 参考訳(メタデータ) (2022-03-01T17:25:40Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。