論文の概要: Learning Practically Feasible Policies for Online 3D Bin Packing
- arxiv url: http://arxiv.org/abs/2108.13680v3
- Date: Fri, 2 Jun 2023 10:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 21:25:16.103338
- Title: Learning Practically Feasible Policies for Online 3D Bin Packing
- Title(参考訳): オンライン3Dビンパッキングのための実用性のある政策の学習
- Authors: Hang Zhao, Chenyang Zhu, Xin Xu, Hui Huang, Kai Xu
- Abstract要約: Online 3D Bin Packing Problemは、従来のBin Packing Problemの難解だが実用的には有用である。
オンライン3D-BPPはマルコフ決定過程(MDP)として自然に定式化できる
我々は,このMDPを制約された行動空間で解くために,特に政治的アクター批判的枠組みの深層強化学習を採用する。
- 参考スコア(独自算出の注目度): 36.33774915391967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the Online 3D Bin Packing Problem, a challenging yet practically
useful variant of the classical Bin Packing Problem. In this problem, the items
are delivered to the agent without informing the full sequence information.
Agent must directly pack these items into the target bin stably without
changing their arrival order, and no further adjustment is permitted. Online
3D-BPP can be naturally formulated as Markov Decision Process (MDP). We adopt
deep reinforcement learning, in particular, the on-policy actor-critic
framework, to solve this MDP with constrained action space. To learn a
practically feasible packing policy, we propose three critical designs. First,
we propose an online analysis of packing stability based on a novel stacking
tree. It attains a high analysis accuracy while reducing the computational
complexity from $O(N^2)$ to $O(N \log N)$, making it especially suited for RL
training. Second, we propose a decoupled packing policy learning for different
dimensions of placement which enables high-resolution spatial discretization
and hence high packing precision. Third, we introduce a reward function that
dictates the robot to place items in a far-to-near order and therefore
simplifies the collision avoidance in movement planning of the robotic arm.
Furthermore, we provide a comprehensive discussion on several key implemental
issues. The extensive evaluation demonstrates that our learned policy
outperforms the state-of-the-art methods significantly and is practically
usable for real-world applications.
- Abstract(参考訳): Online 3D Bin Packing Problemは、従来のBin Packing Problemの難解だが実用的には有用である。
この問題では、全シーケンス情報を通知することなく、アイテムをエージェントに配信する。
エージェントは、これらのアイテムを到着順序を変更することなく、ターゲットビンに直接安定して詰め込む必要があり、追加調整は許可されない。
オンライン3D-BPP は Markov Decision Process (MDP) として自然に定式化できる。
我々は,このMDPを制約された行動空間で解くために,特に政治的アクター批判的枠組みの深層強化学習を採用する。
実用可能なパッケージングポリシーを学習するために,我々は3つの重要な設計を提案する。
まず,新しい積み重ね木に基づく荷積み安定性のオンライン解析を提案する。
計算複雑性を$O(N^2)$から$O(N \log N)$に下げつつ高い解析精度を達成し、特にRLトレーニングに適している。
第2に,高分解能空間離散化と高い充填精度を実現する,配置次元の異なるパッキングポリシー学習を提案する。
第3に,ロボットアームの移動計画において,物体を遠方から近方へ配置するように指示する報酬関数を導入し,衝突回避を簡略化する。
さらに、いくつかの重要な実装問題について包括的な議論を行う。
この評価により,我々の学習方針は最先端の手法を著しく上回り,現実の応用に実用的であることが示された。
関連論文リスト
- Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。
本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。
メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-03T05:32:10Z) - Neural Packing: from Visual Sensing to Reinforcement Learning [24.35678534893451]
本稿では,3DでTAP(Transport-and-packing)問題を解決するための新しい学習フレームワークを提案する。
RGBDセンシングと認識による入力オブジェクトの部分的な観察から、ロボットモーション計画による最終ボックス配置に至るまで、完全なソリューションパイプラインを構成し、ターゲットコンテナ内のコンパクトパッキングに到達する。
論文 参考訳(メタデータ) (2023-10-17T02:42:54Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z) - Learning Physically Realizable Skills for Online Packing of General 3D
Shapes [41.27652080050046]
本研究では,不規則な3次元形状に対するオンラインパッキングスキルの学習課題について検討する。
目標は、任意の形状の3Dオブジェクトの連続を指定された容器に連続的に移動させることである。
我々は、物理力学と配置の制約を含む物理的実現性を考慮に入れている。
論文 参考訳(メタデータ) (2022-12-05T08:23:39Z) - Planning Irregular Object Packing via Hierarchical Reinforcement
Learning [85.64313062912491]
本研究では,不規則物体のパッケージングシーケンスと配置を計画するための階層的強化学習手法を提案する。
我々の手法は、不規則なオブジェクトの最先端のパッキング方法よりも、より少ない時間でより多くのオブジェクトをパックできることを示す。
論文 参考訳(メタデータ) (2022-11-17T07:16:37Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - A Generalized Reinforcement Learning Algorithm for Online 3D Bin-Packing [7.79020719611004]
本稿では,オンライン3次元ビンパッキング問題の解法としてDeep Reinforcement Learning (Deep RL)アルゴリズムを提案する。
その焦点は、ロボットのローディングアームで物理的に実装できる意思決定を作ることだ。
実験的な競合比と容積効率の観点から,RL法は最先端のオンラインビンパッキングよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T13:02:04Z) - Online 3D Bin Packing with Constrained Deep Reinforcement Learning [27.656959508214193]
我々は3D Bin Packing Problem(3D-BPP)の難解だが実用的に有用な変種を解く。
我々の問題では、エージェントは、容器に詰め込むアイテムに関する情報が限られており、アイテムはバッファリングやリフレクションをすることなく、到着直後にパッキングされなければならない。
本稿ではアクター・クリティカルな枠組みの下で,効果的かつ容易に実装可能な制約付き深層強化学習法を提案する。
論文 参考訳(メタデータ) (2020-06-26T13:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。