論文の概要: Effective Online 3D Bin Packing with Lookahead Parcels Using Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2601.02649v1
- Date: Tue, 06 Jan 2026 01:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.769831
- Title: Effective Online 3D Bin Packing with Lookahead Parcels Using Monte Carlo Tree Search
- Title(参考訳): Monte Carlo Tree Search を用いたLookahead Parcelsを用いたオンライン3Dバインディングの効果的実装
- Authors: Jiangyi Fang, Bowen Zhou, Haotian Wang, Xin Zhu, Leye Wang,
- Abstract要約: ロボットアームを搭載したオンライン3D Bin Packing(3D-BP)は、現代の物流における輸送と労働コストの削減に不可欠である。
オンライン3D-BPをモデル予測制御(MPC)問題として、ルックアヘッドパーセルで定式化し、モンテカルロ木探索(MCTS)フレームワークを適用して解決する。
- 参考スコア(独自算出の注目度): 20.56186247220195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online 3D Bin Packing (3D-BP) with robotic arms is crucial for reducing transportation and labor costs in modern logistics. While Deep Reinforcement Learning (DRL) has shown strong performance, it often fails to adapt to real-world short-term distribution shifts, which arise as different batches of goods arrive sequentially, causing performance drops. We argue that the short-term lookahead information available in modern logistics systems is key to mitigating this issue, especially during distribution shifts. We formulate online 3D-BP with lookahead parcels as a Model Predictive Control (MPC) problem and adapt the Monte Carlo Tree Search (MCTS) framework to solve it. Our framework employs a dynamic exploration prior that automatically balances a learned RL policy and a robust random policy based on the lookahead characteristics. Additionally, we design an auxiliary reward to penalize long-term spatial waste from individual placements. Extensive experiments on real-world datasets show that our method consistently outperforms state-of-the-art baselines, achieving over 10\% gains under distributional shifts, 4\% average improvement in online deployment, and up to more than 8\% in the best case--demonstrating the effectiveness of our framework.
- Abstract(参考訳): ロボットアームを搭載したオンライン3D Bin Packing(3D-BP)は、現代の物流における輸送と労働コストの削減に不可欠である。
深層強化学習(Dep Reinforcement Learning, DRL)は高いパフォーマンスを示しているが、現実の短期的な分布シフトに適応できない場合が多い。
現代の物流システムで利用できる短期的な目視情報は、特に流通シフトにおいてこの問題を緩和する鍵となると論じる。
オンライン3D-BPをモデル予測制御(MPC)問題として、ルックアヘッドパーセルで定式化し、モンテカルロ木探索(MCTS)フレームワークを適用して解決する。
我々のフレームワークは、学習したRLポリシーと、ルックアヘッド特性に基づく頑健なランダムポリシーとを自動でバランスする動的探索を前もって採用している。
さらに, 個別配置から長期空間廃棄物を罰する補助的な報酬を設計する。
実世界のデータセットに対する大規模な実験により、我々の手法は最先端のベースラインを一貫して上回り、分散シフトの下で10倍以上のゲインを達成し、オンラインデプロイメントにおける平均4倍、最高のケースでは最大8倍以上の改善を実現し、フレームワークの有効性を実証している。
関連論文リスト
- Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Generalizing Consistency Policy to Visual RL with Prioritized Proximal Experience Regularization [12.045972135237019]
オンライン視覚強化学習における非定常分布とアクター・クリティカル・フレームワークが整合性ポリシーに及ぼす影響について検討する。
本稿では, 標本効率を向上させるために, 優先度付き近位体験正規化(CP3ER)を用いた整合性ポリシーを提案する。
CP3ERはDeepMindコントロールスイートとMeta-worldにまたがる21のタスクで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-28T09:24:10Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z) - Using Reinforcement Learning for the Three-Dimensional Loading Capacitated Vehicle Routing Problem [40.50169360761464]
効率を上げるためのソリューションとして、協調車両ルーティングが提案されている。
現在の運用研究手法は、問題の大きさを増大させる非線形スケーリングに悩まされている。
約線形時間で3次元負荷容量化車両ルーティング問題を解くための強化学習モデルを開発した。
論文 参考訳(メタデータ) (2023-07-22T18:05:28Z) - A Deep Reinforcement Learning Approach for Constrained Online Logistics
Route Assignment [4.367543599338385]
物流業界にとって、各出荷区画に適切な物流ルートを割り当てる方法が不可欠である。
このオンライン経路割り当て問題は、制約付きオンライン意思決定問題とみなすことができる。
我々はPPO-RAと呼ばれるモデルフリーDRLアプローチを開発し、経路割当(RA)の課題に対処する専用の技術を用いてPPO(Pximal Policy Optimization)を改善した。
論文 参考訳(メタデータ) (2021-09-08T07:27:39Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Learning to Optimize Industry-Scale Dynamic Pickup and Delivery Problems [17.076557377480444]
動的ピックアップ・デリバリー問題 (DPDP) は、配送注文が事前に分かっていない場合のコストを最小限に抑えるため、複数のサイト間で車両を動的にスケジューリングすることを目的としている。
産業規模のDPDPを解決するために,データ駆動型空間時間支援ダブルグラフネットワーク(ST-DDGN)を提案する。
本手法は,ST-DDGNデータから隣接車両のリレーショナル表現を周期的に学習し,補正することが可能である。
論文 参考訳(メタデータ) (2021-05-27T01:16:00Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Online 3D Bin Packing with Constrained Deep Reinforcement Learning [27.656959508214193]
我々は3D Bin Packing Problem(3D-BPP)の難解だが実用的に有用な変種を解く。
我々の問題では、エージェントは、容器に詰め込むアイテムに関する情報が限られており、アイテムはバッファリングやリフレクションをすることなく、到着直後にパッキングされなければならない。
本稿ではアクター・クリティカルな枠組みの下で,効果的かつ容易に実装可能な制約付き深層強化学習法を提案する。
論文 参考訳(メタデータ) (2020-06-26T13:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。