論文の概要: Optimizing 2D+1 Packing in Constrained Environments Using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.17573v1
- Date: Fri, 21 Mar 2025 23:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:55.032250
- Title: Optimizing 2D+1 Packing in Constrained Environments Using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いた制約環境における2D+1パッケージの最適化
- Authors: Victor Ulisses Pugliese, Oséias F. de A. Ferreira, Fabio A. Faria,
- Abstract要約: 本稿では,空間制約付き2D+1パッキング問題に対する深部強化学習(DRL)に基づく新しい手法を提案する。
OpenAI Gymフレームワークを用いたシミュレータは、高さ制約のある2つの基板上の矩形部品の充填を効率的にシミュレートするために開発された。
- 参考スコア(独自算出の注目度): 0.6827423171182154
- License:
- Abstract: This paper proposes a novel approach based on deep reinforcement learning (DRL) for the 2D+1 packing problem with spatial constraints. This problem is an extension of the traditional 2D packing problem, incorporating an additional constraint on the height dimension. Therefore, a simulator using the OpenAI Gym framework has been developed to efficiently simulate the packing of rectangular pieces onto two boards with height constraints. Furthermore, the simulator supports multidiscrete actions, enabling the selection of a position on either board and the type of piece to place. Finally, two DRL-based methods (Proximal Policy Optimization -- PPO and the Advantage Actor-Critic -- A2C) have been employed to learn a packing strategy and demonstrate its performance compared to a well-known heuristic baseline (MaxRect-BL). In the experiments carried out, the PPO-based approach proved to be a good solution for solving complex packaging problems and highlighted its potential to optimize resource utilization in various industrial applications, such as the manufacturing of aerospace composites.
- Abstract(参考訳): 本稿では,空間制約付き2D+1パッキング問題に対する深部強化学習(DRL)に基づく新しい手法を提案する。
この問題は従来の2次元パッキング問題の拡張であり、高さ次元にさらなる制約が加えられている。
そこで,OpenAI Gymフレームワークを用いたシミュレータを開発した。
さらに、シミュレータは複数の離散的な動作をサポートし、各基板上の位置と、配置する部品の種類を選択できる。
最後に、DRLベースの2つの手法(PPOとAdvantage Actor-Critic -- A2C)を用いて、パッキング戦略を学び、その性能をよく知られたヒューリスティックベースライン(MaxRect-BL)と比較した。
実験の結果,PPOベースのアプローチは複雑な包装問題の解決に有効であることが判明し,航空宇宙複合材料の製造など,様々な産業用途における資源利用の最適化の可能性を強調した。
関連論文リスト
- Mitigating Dimensionality in 2D Rectangle Packing Problem under Reinforcement Learning Schema [0.0]
本稿では,2次元矩形パッキング問題に対する強化学習(RL)の適用について検討する。
本研究では,高粒度化を実現する状態空間と行動空間の縮小表現を提案する。
論文 参考訳(メタデータ) (2024-09-15T09:58:48Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Leveraging Constraint Programming in a Deep Learning Approach for Dynamically Solving the Flexible Job-Shop Scheduling Problem [1.3927943269211593]
本稿では,制約プログラミング(CP)をディープラーニング(DL)ベースの方法論に統合し,両者の利点を活用することを目的とする。
本稿では,CP が生成する最適解を用いて DL モデルを訓練し,高品質なデータからモデルを学習する手法を提案する。
我々のハイブリッドアプローチは3つの公開FJSSPベンチマークで広範囲にテストされ、5つの最先端DRLアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-14T10:16:57Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Online 3D Bin Packing Reinforcement Learning Solution with Buffer [1.8060107352742993]
性能向上のための3D-BPPソリューションのための新しい強化学習フレームワークを提案する。
一般的なアルゴリズムAlphaGoに適応したモデルベースRL法を実装した。
私たちの適応はシングルプレイヤーとスコアベースの環境で動作することができます。
論文 参考訳(メタデータ) (2022-08-15T11:28:20Z) - Learning Practically Feasible Policies for Online 3D Bin Packing [36.33774915391967]
Online 3D Bin Packing Problemは、従来のBin Packing Problemの難解だが実用的には有用である。
オンライン3D-BPPはマルコフ決定過程(MDP)として自然に定式化できる
我々は,このMDPを制約された行動空間で解くために,特に政治的アクター批判的枠組みの深層強化学習を採用する。
論文 参考訳(メタデータ) (2021-08-31T08:37:58Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。