論文の概要: One4Many-StablePacker: An Efficient Deep Reinforcement Learning Framework for the 3D Bin Packing Problem
- arxiv url: http://arxiv.org/abs/2510.10057v1
- Date: Sat, 11 Oct 2025 06:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.756463
- Title: One4Many-StablePacker: An Efficient Deep Reinforcement Learning Framework for the 3D Bin Packing Problem
- Title(参考訳): One4Many-StablePacker: 3D Binパッケージ問題に対する効率的な深層強化学習フレームワーク
- Authors: Lei Gao, Shihong Huang, Shengjie Wang, Hong Ma, Feng Zhang, Hengda Bao, Qichang Chen, Weihua Zhou,
- Abstract要約: 3次元ビンパッキング問題(3D-BPP)は物流や倉庫に広く応用されている。
我々は,新しい強化学習フレームワークOne4Many-StablePacker(O4M-SP)を提案する。
O4M-SPは、実際には一般的なサポートと重みの制約を取り入れつつ、単一のトレーニングプロセスで様々なビン次元を処理できる。
- 参考スコア(独自算出の注目度): 12.516955835907089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The three-dimensional bin packing problem (3D-BPP) is widely applied in logistics and warehousing. Existing learning-based approaches often neglect practical stability-related constraints and exhibit limitations in generalizing across diverse bin dimensions. To address these limitations, we propose a novel deep reinforcement learning framework, One4Many-StablePacker (O4M-SP). The primary advantage of O4M-SP is its ability to handle various bin dimensions in a single training process while incorporating support and weight constraints common in practice. Our training method introduces two innovative mechanisms. First, it employs a weighted reward function that integrates loading rate and a new height difference metric for packing layouts, promoting improved bin utilization through flatter packing configurations. Second, it combines clipped policy gradient optimization with a tailored policy drifting method to mitigate policy entropy collapse, encouraging exploration at critical decision nodes during packing to avoid suboptimal solutions. Extensive experiments demonstrate that O4M-SP generalizes successfully across diverse bin dimensions and significantly outperforms baseline methods. Furthermore, O4M-SP exhibits strong practical applicability by effectively addressing packing scenarios with stability constraints.
- Abstract(参考訳): 3次元ビンパッキング問題(3D-BPP)は物流や倉庫に広く応用されている。
既存の学習ベースのアプローチは、しばしば実践的な安定性に関する制約を無視し、多様なビン次元をまたいだ一般化の限界を示す。
これらの制約に対処するため、我々は新しい強化学習フレームワークOne4Many-StablePacker (O4M-SP)を提案する。
O4M-SPの最大の利点は、1つのトレーニングプロセスで様々なビン次元を扱えることだ。
トレーニング方法は2つの革新的なメカニズムを導入します。
第一に、負荷率と新しい高さ差指標を統合した重み付き報酬関数を用いてレイアウトをパッケージ化し、フラットなパッキング構成によるビン利用の改善を促進する。
第二に、カットされたポリシー勾配最適化と、ポリシーのエントロピー崩壊を軽減するための調整されたポリシードリフト手法を組み合わせることで、最適解を避けるためにパッキング中の重要な決定ノードの探索を奨励する。
大規模な実験により、O4M-SPは多様なビン次元にまたがってうまく一般化し、ベースライン法を著しく上回ることを示した。
さらに、O4M-SPは、安定制約付きパッケージングシナリオを効果的に扱うことで、強力な実用性を示す。
関連論文リスト
- SlimPack: Fine-Grained Asymmetric Packing for Balanced and Efficient Variable-Length LLM Training [22.230495941666096]
SlimPackは、サンプルをきめ細かなスライスに分解することで、データパッキングとスケジューリングを根本的に再考するフレームワークです。
SlimPackは、大規模な揮発性ワークロードを小さな管理可能なユニットのストリームに変換することで、重要なメモリと通信ボトルネックを軽減する。
非対称分割は、前方と後方の異なる要求に一意に最適化されたバランスの取れたスケジューリングユニットを組み立てる。
論文 参考訳(メタデータ) (2025-09-30T13:37:48Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - I$^3$-MRec: Invariant Learning with Information Bottleneck for Incomplete Modality Recommendation [56.55935146424585]
textbfIncomplete textbfModality textbfRecommendation の textbfInformation ボトルネック原理を用いて学習する textbfI$3$-MRec を紹介する。
それぞれのモダリティを異なる意味環境として扱うことで、I$3$-MRecは、優先指向の表現を学習するために不変リスク最小化(IRM)を採用する。
I$3$-MRecは、様々なモダリティ欠落シナリオにおいて、既存の最先端MSSメソッドを一貫して上回る
論文 参考訳(メタデータ) (2025-08-06T09:29:50Z) - Deliberate Planning of 3D Bin Packing on Packing Configuration Trees [65.05353662124676]
オンライン3D Bin Packing Problem (3D-BPP) は産業自動化に広く応用されている。
我々は,新しい階層表現,パッキング構成木(PCT)の学習を通じて,オンライン3D-BPPの実用性を高めることを提案する。
PCTは、ディープ強化学習(DRL)に基づくパッキングポリシー学習を支援するビンパッキングの状況と行動空間について、本格的な記述である。
論文 参考訳(メタデータ) (2025-04-06T09:07:10Z) - Optimizing 2D+1 Packing in Constrained Environments Using Deep Reinforcement Learning [0.6827423171182154]
本稿では,空間制約付き2D+1パッキング問題に対する深部強化学習(DRL)に基づく新しい手法を提案する。
OpenAI Gymフレームワークを用いたシミュレータは、高さ制約のある2つの基板上の矩形部品の充填を効率的にシミュレートするために開発された。
論文 参考訳(メタデータ) (2025-03-21T23:06:16Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Hybrid Approach for Solving Real-World Bin Packing Problem Instances
Using Quantum Annealers [0.8434687648198277]
実世界の3次元Bin Packing Problems(Q4RealBPP)を解くためのハイブリッド量子古典的フレームワークを提案する。
Q4RealBPPは、3dBPPの現実指向のインスタンスの解決を許可しており、産業や物流部門でよく評価されている制限について検討している。
論文 参考訳(メタデータ) (2023-03-01T14:04:50Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Learning Practically Feasible Policies for Online 3D Bin Packing [36.33774915391967]
Online 3D Bin Packing Problemは、従来のBin Packing Problemの難解だが実用的には有用である。
オンライン3D-BPPはマルコフ決定過程(MDP)として自然に定式化できる
我々は,このMDPを制約された行動空間で解くために,特に政治的アクター批判的枠組みの深層強化学習を採用する。
論文 参考訳(メタデータ) (2021-08-31T08:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。