Fugu-MT 論文翻訳(概要): Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers

論文の概要: Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers

arxiv url: http://arxiv.org/abs/2602.24182v1
Date: Fri, 27 Feb 2026 17:04:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.530517
Title: Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers
Title（参考訳）: ロボット協調処理センターにおける大規模トート配置のための多目的強化学習
Authors: Sikata Sengupta, Guangyi Liu, Omer Gottesman, Joseph W Durham, Michael Kearns, Aaron Roth, Michael Caldara,
Abstract要約: 大規模多目的強化学習(MORL)タスクを高次元状態空間と動的システム挙動を用いて開発する。提案手法は,ゼロサムゲームにおける制約付きRL問題の最適応答と非応答ダイナミクスによる解法における最近の理論的進歩に基づいている。現実的な倉庫シミュレーションの政策評価は、我々のアプローチが目的を効果的に引き離していることを示している。
参考スコア（独自算出の注目度）: 14.702711874047765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizing the consolidation process in container-based fulfillment centers requires trading off competing objectives such as processing speed, resource usage, and space utilization while adhering to a range of real-world operational constraints. This process involves moving items between containers via a combination of human and robotic workstations to free up space for inbound inventory and increase container utilization. We formulate this problem as a large-scale Multi-Objective Reinforcement Learning (MORL) task with high-dimensional state spaces and dynamic system behavior. Our method builds on recent theoretical advances in solving constrained RL problems via best-response and no-regret dynamics in zero-sum games, enabling principled minimax policy learning. Policy evaluation on realistic warehouse simulations shows that our approach effectively trades off objectives, and we empirically observe that it learns a single policy that simultaneously satisfies all constraints, even if this is not theoretically guaranteed. We further introduce a theoretical framework to handle the problem of error cancellation, where time-averaged solutions display oscillatory behavior. This method returns a single iterate whose Lagrangian value is close to the minimax value of the game. These results demonstrate the promise of MORL in solving complex, high-impact decision-making problems in large-scale industrial systems.
Abstract（参考訳）: コンテナベースのフルフィルメントセンターにおける統合プロセスの最適化には、さまざまな実世界の運用上の制約に固執しながら、処理速度やリソース使用量、空間利用といった競合する目標を除外する必要がある。このプロセスでは、人間とロボットのワークステーションを組み合わせてコンテナ間でアイテムを移動させ、インバウンドインベントリのためのスペースを解放し、コンテナの利用率を高める。我々はこの問題を,高次元状態空間と動的システム挙動を有する大規模多目的強化学習(MORL)タスクとして定式化する。本手法は,ゼロサムゲームにおける制約付きRL問題の最適応答および非応答ダイナミクスによる解法における最近の理論的進歩に基づいて,原理化されたミニマックスポリシー学習を実現する。現実的な倉庫シミュレーションにおける政策評価は、我々のアプローチが目的を効果的に引き離すことを示し、理論的に保証されていなくても、同時に全ての制約を満たす単一の政策を学ぶことを実証的に観察する。さらに,時間平均解が振動挙動を示す誤差キャンセル問題に対処する理論的枠組みを導入する。この方法は、ラグランジアン値がゲームのミニマックス値に近い1つのイテレートを返す。これらの結果は、大規模産業システムにおける複雑でインパクトの高い意思決定問題の解決におけるMORLの可能性を実証している。

関連論文リスト

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文参考訳（メタデータ） (2026-03-03T18:59:29Z)
Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments [0.0]
我々は,低レベルの行動実行から高レベルの空間的推論を分離するフレームワークUnveilerを提案する。この分離されたアーキテクチャは、パラメータ数と推論時間の観点からより計算的に効率的であることを示す。シミュレーションでは,97.6%の成功率,90.0%の完全閉塞シナリオを達成し,複雑な操作タスクにおけるオブジェクト中心推論の能力について考察した。
論文参考訳（メタデータ） (2026-03-03T01:45:53Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Deep RL Dual Sourcing Inventory Management with Supply and Capacity Risk Awareness [4.583289433858458]
介入モデルを利用して大規模最適化問題に強化学習(RL)を効率的に適用する方法を検討する。我々は,サプライチェーン最適化におけるマルチソース多周期在庫管理問題である,現実世界の挑戦的アプリケーションに対するアプローチを実証する。
論文参考訳（メタデータ） (2025-07-19T02:44:45Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Objects matter: object-centric world models improve reinforcement learning in visually complex environments [2.2532647717990937]
視覚的に複雑なゲームのためのオブジェクト中心強化学習パイプラインを提案する。このパイプラインが,従来のモデルベース強化学習の限界を克服する方法について説明する。
論文参考訳（メタデータ） (2025-01-27T19:07:06Z)
Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文参考訳（メタデータ） (2024-05-21T20:53:18Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文参考訳（メタデータ） (2022-04-14T17:46:26Z)
Learning Solution Manifolds for Control Problems via Energy Minimization [32.59818752168615]
様々な制御タスクは一般にエネルギー最小化問題として定式化されている。このような問題に対する数値解は十分に確立されているが、しばしばリアルタイムアプリケーションで直接使用されるには遅すぎる。本稿では,効率的かつ数値的に堅牢な行動クローニング(BC)の代替手法を提案する。
論文参考訳（メタデータ） (2022-03-07T14:28:57Z)
Deep Policy Iteration with Integer Programming for Inventory Management [8.27175065641495]
本稿では,大規模なアクセス可能な行動空間と状態依存制約を用いた長期割引報酬問題を最適化するための枠組みを提案する。提案したプログラム可能なアクター強化学習(PARL)は,ニューラルネットワーク(NN)を利用して値関数を近似するディープ・ポリシー法を用いる。我々は、提案アルゴリズムを最先端のRLアルゴリズムに対してベンチマークし、一般的に補充を使い、既存の手法を平均14.7%も上回っていることを発見した。
論文参考訳（メタデータ） (2021-12-04T01:40:34Z)
CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based RL [4.014524824655106]
腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。アームの軌道生成は、ロボットの体を動かすための衝突のない経路を見つけることを含む基本的なロボティクス問題です。
論文参考訳（メタデータ） (2021-03-24T15:33:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。