論文の概要: Learning to Staff: Offline Reinforcement Learning and Fine-Tuned LLMs for Warehouse Staffing Optimization
- arxiv url: http://arxiv.org/abs/2603.24883v1
- Date: Wed, 25 Mar 2026 23:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.022185
- Title: Learning to Staff: Offline Reinforcement Learning and Fine-Tuned LLMs for Warehouse Staffing Optimization
- Title(参考訳): スタッフへの学習: 倉庫スタッフ最適化のためのオフライン強化学習と微調整LDM
- Authors: Kalle Kujanpää, Yuying Zhu, Kristina Klinkner, Shervin Malmasi,
- Abstract要約: 我々は、詳細な歴史的状態表現に基づいてオフライン強化学習を用いて、カスタムトランスフォーマーベースのポリシーを訓練する。
我々は、抽象的、人間可読な状態記述で動作するLCMについて検討する。
我々の研究結果は、両方のアプローチがAIによる運用上の意思決定に有効な道筋を提供することを示している。
- 参考スコア(独自算出の注目度): 15.738083856839749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate machine learning approaches for optimizing real-time staffing decisions in semi-automated warehouse sortation systems. Operational decision-making can be supported at different levels of abstraction, with different trade-offs. We evaluate two approaches, each in a matching simulation environment. First, we train custom Transformer-based policies using offline reinforcement learning on detailed historical state representations, achieving a 2.4% throughput improvement over historical baselines in learned simulators. In high-volume warehouse operations, improvements of this size translate to significant savings. Second, we explore LLMs operating on abstracted, human-readable state descriptions. These are a natural fit for decisions that warehouse managers make using high-level operational summaries. We systematically compare prompting techniques, automatic prompt optimization, and fine-tuning strategies. While prompting alone proves insufficient, supervised fine-tuning combined with Direct Preference Optimization on simulator-generated preferences achieves performance that matches or slightly exceeds historical baselines in a hand-crafted simulator. Our findings demonstrate that both approaches offer viable paths toward AI-assisted operational decision-making. Offline RL excels with task-specific architectures. LLMs support human-readable inputs and can be combined with an iterative feedback loop that can incorporate manager preferences.
- Abstract(参考訳): 半自動倉庫ソートシステムにおけるリアルタイムスタッフ決定を最適化するための機械学習アプローチについて検討する。
運用上の意思決定は、さまざまなレベルの抽象化と、さまざまなトレードオフでサポートできます。
マッチングシミュレーション環境における2つのアプローチの評価を行った。
まず, 学習シミュレータにおける履歴ベースラインよりも2.4%のスループット向上を実現し, 詳細な履歴表現に基づいてオフライン強化学習を用いて, カスタムトランスフォーマーベースのポリシーを訓練する。
大量倉庫の操業では、この規模の改善は大幅な貯蓄に繋がる。
第2に、抽象的、人間可読な状態記述で動作するLLMについて検討する。
これらは、倉庫管理者が高レベルの運用サマリーを使用して行う決定に自然に適合します。
我々は、プロンプト技術、自動プロンプト最適化、微調整戦略を体系的に比較する。
プロンプトだけでは不十分であることが証明されるが、シミュレータ生成された好みに対する直接優先度最適化と組み合わせることで、手作りシミュレータの履歴ベースラインをわずかに上回るパフォーマンスを実現する。
我々の研究結果は、両方のアプローチがAIによる運用上の意思決定に有効な道筋を提供することを示している。
オフラインRLはタスク固有のアーキテクチャに優れています。
LLMはヒューマン可読な入力をサポートしており、マネージャの好みを取り入れた反復的なフィードバックループと組み合わせることができる。
関連論文リスト
- AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - LLaPipe: LLM-Guided Reinforcement Learning for Automated Data Preparation Pipeline Construction [10.777588304625718]
LLaPipeは、Large Language Models(LLM)をインテリジェントポリシーアドバイザとして統合する新しいフレームワークである。
我々はLLaPipeがパイプラインの品質を最大22.4%向上し、2.3$times$高速収束を実現することを実証した。
論文 参考訳(メタデータ) (2025-07-18T07:52:19Z) - Scalability of Reinforcement Learning Methods for Dispatching in Semiconductor Frontend Fabs: A Comparison of Open-Source Models with Real Industry Datasets [40.434003972007744]
我々は,オープンソースのシミュレーションモデルと実業界データセットを比較し,最適化手法のスケーリング方法を評価する。
提案した進化戦略に基づく手法は、同等の政策段階に基づく手法よりもはるかに優れていることを示す。
進化戦略を用いて,2桁のタドネス向上と1桁のスループット向上を観察した。
論文 参考訳(メタデータ) (2025-05-16T11:32:29Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。