論文の概要: Online 3D Bin Packing Reinforcement Learning Solution with Buffer
- arxiv url: http://arxiv.org/abs/2208.07123v1
- Date: Mon, 15 Aug 2022 11:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:33:56.677452
- Title: Online 3D Bin Packing Reinforcement Learning Solution with Buffer
- Title(参考訳): Bufferによるオンライン3D Bin Packing強化学習ソリューション
- Authors: Aaron Valero Puche and Sukhan Lee
- Abstract要約: 性能向上のための3D-BPPソリューションのための新しい強化学習フレームワークを提案する。
一般的なアルゴリズムAlphaGoに適応したモデルベースRL法を実装した。
私たちの適応はシングルプレイヤーとスコアベースの環境で動作することができます。
- 参考スコア(独自算出の注目度): 1.8060107352742993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 3D Bin Packing Problem (3D-BPP) is one of the most demanded yet
challenging problems in industry, where an agent must pack variable size items
delivered in sequence into a finite bin with the aim to maximize the space
utilization. It represents a strongly NP-Hard optimization problem such that no
solution has been offered to date with high performance in space utilization.
In this paper, we present a new reinforcement learning (RL) framework for a
3D-BPP solution for improving performance. First, a buffer is introduced to
allow multi-item action selection. By increasing the degree of freedom in
action selection, a more complex policy that results in better packing
performance can be derived. Second, we propose an agnostic data augmentation
strategy that exploits both bin item symmetries for improving sample
efficiency. Third, we implement a model-based RL method adapted from the
popular algorithm AlphaGo, which has shown superhuman performance in zero-sum
games. Our adaptation is capable of working in single-player and score based
environments. In spite of the fact that AlphaGo versions are known to be
computationally heavy, we manage to train the proposed framework with a single
thread and GPU, while obtaining a solution that outperforms the
state-of-the-art results in space utilization.
- Abstract(参考訳): 3D Bin Packing Problem (3D-BPP) は、空間利用を最大化するために、エージェントが有限個のビンに配送される可変サイズのアイテムをパックしなければならない業界で最も要求される問題の1つである。
これはnpハードな最適化問題であり、空間利用における高性能なソリューションは提供されていない。
本稿では,性能向上のための3d-bppソリューションのための強化学習(rl)フレームワークを提案する。
まず、複数項目のアクション選択を可能にするバッファを導入する。
アクション選択の自由度を増加させることで、より複雑なポリシーにより、より優れたパッキング性能が得られる。
第2に,両項目の対称性を活用してサンプル効率を向上させるデータ拡張戦略を提案する。
第3に,0サムゲームにおける超人的性能を示すアルゴリズムAlphaGoのモデルベースRL法を実装した。
私たちの適応は、シングルプレイヤーとスコアベースの環境で動作できます。
AlphaGoのバージョンが計算的に重いことが知られているにもかかわらず、提案したフレームワークを単一のスレッドとGPUでトレーニングし、また、空間利用における最先端の結果を上回るソリューションを得ることができた。
関連論文リスト
- Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - Uncertainty-Aware Testing-Time Optimization for 3D Human Pose Estimation [68.75387874066647]
本研究では3次元ポーズ推定のための不確実性認識テスト時間最適化フレームワークを提案する。
我々のアプローチは、Human3.6Mの4.5%という大きなマージンで、過去最高の結果を上回っている。
論文 参考訳(メタデータ) (2024-02-04T04:28:02Z) - Neural Packing: from Visual Sensing to Reinforcement Learning [24.35678534893451]
本稿では,3DでTAP(Transport-and-packing)問題を解決するための新しい学習フレームワークを提案する。
RGBDセンシングと認識による入力オブジェクトの部分的な観察から、ロボットモーション計画による最終ボックス配置に至るまで、完全なソリューションパイプラインを構成し、ターゲットコンテナ内のコンパクトパッキングに到達する。
論文 参考訳(メタデータ) (2023-10-17T02:42:54Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z) - Learning based 2D Irregular Shape Packing [29.044043493942013]
2次元不規則な形状パッキングは、3次元モデルのUVパッチをテクスチャアトラス内に配置するために必要なステップであり、コンピュータグラフィックスにおけるメモリ効率の高い外観レンダリングを実現する。
本稿では,学習支援型2次元不規則形状パッキング手法を提案する。
数百のパッチで大きな問題インスタンスを効率的に処理するために、私たちは、ほぼ矩形のパッチサブセットを予測するために、ディープニューラルネットワークポリシーをトレーニングします。
論文 参考訳(メタデータ) (2023-09-19T05:21:52Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Learning Practically Feasible Policies for Online 3D Bin Packing [36.33774915391967]
Online 3D Bin Packing Problemは、従来のBin Packing Problemの難解だが実用的には有用である。
オンライン3D-BPPはマルコフ決定過程(MDP)として自然に定式化できる
我々は,このMDPを制約された行動空間で解くために,特に政治的アクター批判的枠組みの深層強化学習を採用する。
論文 参考訳(メタデータ) (2021-08-31T08:37:58Z) - A Generalized Reinforcement Learning Algorithm for Online 3D Bin-Packing [7.79020719611004]
本稿では,オンライン3次元ビンパッキング問題の解法としてDeep Reinforcement Learning (Deep RL)アルゴリズムを提案する。
その焦点は、ロボットのローディングアームで物理的に実装できる意思決定を作ることだ。
実験的な競合比と容積効率の観点から,RL法は最先端のオンラインビンパッキングよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T13:02:04Z) - MOPS-Net: A Matrix Optimization-driven Network forTask-Oriented 3D Point
Cloud Downsampling [86.42733428762513]
MOPS-Netは行列最適化のための新しい解釈可能な深層学習手法である。
我々はMOPS-Netが様々なタスクに対して最先端の深層学習手法に対して好適な性能が得られることを示す。
論文 参考訳(メタデータ) (2020-05-01T14:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。