論文の概要: Online 3D Bin Packing with Constrained Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.14978v5
- Date: Thu, 13 Jan 2022 13:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:04:07.462302
- Title: Online 3D Bin Packing with Constrained Deep Reinforcement Learning
- Title(参考訳): 制約付き深層強化学習によるオンライン3Dビンパッキング
- Authors: Hang Zhao, Qijin She, Chenyang Zhu, Yin Yang, Kai Xu
- Abstract要約: 我々は3D Bin Packing Problem(3D-BPP)の難解だが実用的に有用な変種を解く。
我々の問題では、エージェントは、容器に詰め込むアイテムに関する情報が限られており、アイテムはバッファリングやリフレクションをすることなく、到着直後にパッキングされなければならない。
本稿ではアクター・クリティカルな枠組みの下で,効果的かつ容易に実装可能な制約付き深層強化学習法を提案する。
- 参考スコア(独自算出の注目度): 27.656959508214193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We solve a challenging yet practically useful variant of 3D Bin Packing
Problem (3D-BPP). In our problem, the agent has limited information about the
items to be packed into the bin, and an item must be packed immediately after
its arrival without buffering or readjusting. The item's placement also
subjects to the constraints of collision avoidance and physical stability. We
formulate this online 3D-BPP as a constrained Markov decision process. To solve
the problem, we propose an effective and easy-to-implement constrained deep
reinforcement learning (DRL) method under the actor-critic framework. In
particular, we introduce a feasibility predictor to predict the feasibility
mask for the placement actions and use it to modulate the action probabilities
output by the actor during training. Such supervisions and transformations to
DRL facilitate the agent to learn feasible policies efficiently. Our method can
also be generalized e.g., with the ability to handle lookahead or items with
different orientations. We have conducted extensive evaluation showing that the
learned policy significantly outperforms the state-of-the-art methods. A user
study suggests that our method attains a human-level performance.
- Abstract(参考訳): 我々は3D Bin Packing Problem(3D-BPP)の難解だが実用上有用である。
我々の問題では、エージェントはビンに詰め込むアイテムに関する情報が限られており、アイテムはバッファリングや再調整なしに到着直後に満たさなければならない。
アイテムの配置は衝突回避と物理的安定性の制約も考慮している。
このオンライン3D-BPPをマルコフ決定プロセスとして定式化する。
そこで本研究では,アクター・クリティカルな枠組みの下で,効果的かつ容易に実装可能な制約付き強化学習手法を提案する。
特に,プレースメント動作の実現可能性マスクを予測し,訓練中にアクタが出力する行動確率を変調する実現可能性予測器を提案する。
このような監視とDRLへの変換により、エージェントは実行可能なポリシーを効率的に学ぶことができる。
我々の手法は、例えば、ルックアヘッドや異なる方向のアイテムを扱えるように一般化することもできる。
我々は,学習方針が最先端手法を著しく上回っていることを示す広範な評価を行った。
ユーザスタディでは,本手法が人間レベルのパフォーマンスを実現することを示唆している。
関連論文リスト
- Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z) - Learning Physically Realizable Skills for Online Packing of General 3D
Shapes [41.27652080050046]
本研究では,不規則な3次元形状に対するオンラインパッキングスキルの学習課題について検討する。
目標は、任意の形状の3Dオブジェクトの連続を指定された容器に連続的に移動させることである。
我々は、物理力学と配置の制約を含む物理的実現性を考慮に入れている。
論文 参考訳(メタデータ) (2022-12-05T08:23:39Z) - End-to-End Affordance Learning for Robotic Manipulation [4.405918052597016]
インタラクティブな環境で3Dオブジェクトを操作することの学習は、強化学習において難しい問題であった。
視覚的余裕は、効果的に実行可能なセマンティクスを備えたオブジェクト中心の情報提供において、大きな見通しを示してきた。
本研究では,RL学習過程において生成した接触情報を用いて視覚的余裕を生かし,興味のある接触マップを予測する。
論文 参考訳(メタデータ) (2022-09-26T18:24:28Z) - Learning Practically Feasible Policies for Online 3D Bin Packing [36.33774915391967]
Online 3D Bin Packing Problemは、従来のBin Packing Problemの難解だが実用的には有用である。
オンライン3D-BPPはマルコフ決定過程(MDP)として自然に定式化できる
我々は,このMDPを制約された行動空間で解くために,特に政治的アクター批判的枠組みの深層強化学習を採用する。
論文 参考訳(メタデータ) (2021-08-31T08:37:58Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。