論文の概要: Preference-Conditioned Reinforcement Learning for Space-Time Efficient Online 3D Bin Packing
- arxiv url: http://arxiv.org/abs/2603.07800v1
- Date: Sun, 08 Mar 2026 20:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.073195
- Title: Preference-Conditioned Reinforcement Learning for Space-Time Efficient Online 3D Bin Packing
- Title(参考訳): 空間時間効率のよいオンライン3Dビンパッキングのための前提条件強化学習
- Authors: Nikita Sarawgi, Omey M. Manyar, Fan Wang, Thinh H. Nguyen, Daniel Seita, Satyandra K. Gupta,
- Abstract要約: ロボット・ビン・パッキングは倉庫の自動化に広く利用されている。
現在のシステムは、コンパクトな配置と迅速な実行のバランスをとり、代替品を選択したり、再配置したりすることで、空間利用を改善することができるが、追加の時間を導入することができる。
このトレードオフを明示的に理由づけた選択に基づく定式化を提案する。
これは、パッキング密度を損なうことなく、運用時間の44%削減を実現する。
- 参考スコア(独自算出の注目度): 21.573486686003903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic bin packing is widely deployed in warehouse automation, with current systems achieving robust performance through heuristic and learning-based strategies. These systems must balance compact placement with rapid execution, where selecting alternative items or reorienting them can improve space utilization but introduce additional time. We propose a selection-based formulation that explicitly reasons over this trade-off: at each step, the robot evaluates multiple candidate actions, weighing expected packing benefit against estimated operational time. This enables time-aware strategies that selectively accept increased operational time when it yields meaningful spatial improvements. Our method, STEP (Space-Time Efficient Packing), uses a preference-conditioned, Transformer-based reinforcement learning policy, and allows generalization across candidate set sizes and integration with standard placement modules. It achieves a 44% reduction in operational time without compromising packing density. Additional material is available at https://step-packing.github.io.
- Abstract(参考訳): ロボットビンパッキングは倉庫の自動化に広く使われており、現在のシステムはヒューリスティックおよび学習ベースの戦略を通じて堅牢なパフォーマンスを実現している。
これらのシステムは、コンパクトな配置と迅速な実行のバランスをとる必要がある。
本稿では,このトレードオフを明示的に理由づけた選択型定式化を提案する。各ステップにおいて,ロボットは複数の候補行動を評価し,想定される運用時間に対するパッケージングのメリットを評価する。
これにより、意味のある空間的改善をもたらすと、運用時間の増加を選択的に受け入れるタイムアウェア戦略が可能になる。
提案手法であるSTEP(Space-Time Efficient Packing)は,好み条件付きトランスフォーマーに基づく強化学習ポリシを用いて,候補セットのサイズをまたいだ一般化と標準配置モジュールの統合を実現する。
これは、パッキング密度を損なうことなく、運用時間の44%削減を実現する。
追加資料はhttps://step-packing.github.io.comで入手できる。
関連論文リスト
- Improving planning and MBRL with temporally-extended actions [1.8047694351309207]
連続時間システムは離散時間力学を用いてモデル化されることが多いが、精度を維持するには小さなシミュレーションステップが必要である。
これまでの作業では、個別のアクション期間を決定するためにポリシーが学習されたアクションリピートを使用して、この問題に部分的に対処してきた。
本稿では、時間的に拡張されたアクションを使用して、連続的な決定時間を直接制御し、プランナーが追加の最適化変数としてアクションの持続時間を扱わせることを提案する。
論文 参考訳(メタデータ) (2025-05-21T16:59:32Z) - Why Sample Space Matters: Keyframe Sampling Optimization for LiDAR-based Place Recognition [6.468510459310326]
サンプル空間の概念を導入し,LiDARを用いた位置認識のための新しいサンプリング手法を提案する。
このアプローチは、さまざまなデータセット間で堅牢なパフォーマンスを示し、屋内シナリオから屋外シナリオへのシームレスな適応を可能にします。
論文 参考訳(メタデータ) (2024-10-03T16:29:47Z) - Constant-time Motion Planning with Anytime Refinement for Manipulation [17.543746580669662]
本研究では,CTMP(Constant-time Motion Planners)アルゴリズムと組み合わせたリアルタイム改良手法を提案する。
提案するフレームワークは,定数時間アルゴリズムとして動作するため,ユーザ定義時間しきい値内の初期解を高速に生成する。
任意の時間アルゴリズムとして機能し、割り当てられた時間予算内で、ソリューションの品質を反復的に改善します。
論文 参考訳(メタデータ) (2023-11-01T20:40:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Mlr3spatiotempcv: Spatiotemporal resampling methods for machine learning
in R [63.26453219947887]
このパッケージは、proglangRパッケージを直接mlr3機械学習フレームワークに統合する。
1つの利点は、包括的な機械学習ツールキットで一貫したレコメンデーションを使用することである。
論文 参考訳(メタデータ) (2021-10-25T06:48:29Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Multi-scale Interaction for Real-time LiDAR Data Segmentation on an
Embedded Platform [62.91011959772665]
LiDARデータのリアルタイムセマンティックセグメンテーションは、自動運転車にとって不可欠である。
ポイントクラウド上で直接動作する現在のアプローチでは、複雑な空間集約操作を使用する。
本稿では,マルチスケールインタラクションネットワーク(MINet)と呼ばれるプロジェクションベースの手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T19:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。