論文の概要: OpComm: A Reinforcement Learning Framework for Adaptive Buffer Control in Warehouse Volume Forecasting
- arxiv url: http://arxiv.org/abs/2512.19738v1
- Date: Wed, 17 Dec 2025 17:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.61309
- Title: OpComm: A Reinforcement Learning Framework for Adaptive Buffer Control in Warehouse Volume Forecasting
- Title(参考訳): OpComm: ウェアハウスボリューム予測における適応バッファ制御のための強化学習フレームワーク
- Authors: Wilson Fung, Lu Guo, Drake Hilliard, Alessandro Casadei, Raj Ratan, Sreyoshi Bhaduri, Adi Surve, Nikhil Agarwal, Rohit Malshe, Pavan Mullapudi, Hungjen Wang, Saurabh Doodhwala, Ankush Pole, Arkajit Rakshit,
- Abstract要約: OpCommは、教師あり学習と強化学習ベースのバッファ制御を組み合わせた予測および意思決定支援フレームワークである。
400以上のステーションで、OpCommは手動の予測よりも21.65%の重み付き絶対パーセンテージエラー(WAPE)を減らした。
- 参考スコア(独自算出の注目度): 28.715625330574966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate forecasting of package volumes at delivery stations is critical for last-mile logistics, where errors lead to inefficient resource allocation, higher costs, and delivery delays. We propose OpComm, a forecasting and decision-support framework that combines supervised learning with reinforcement learning-based buffer control and a generative AI-driven communication module. A LightGBM regression model generates station-level demand forecasts, which serve as context for a Proximal Policy Optimization (PPO) agent that selects buffer levels from a discrete action set. The reward function penalizes under-buffering more heavily than over-buffering, reflecting real-world trade-offs between unmet demand risks and resource inefficiency. Station outcomes are fed back through a Monte Carlo update mechanism, enabling continual policy adaptation. To enhance interpretability, a generative AI layer produces executive-level summaries and scenario analyses grounded in SHAP-based feature attributions. Across 400+ stations, OpComm reduced Weighted Absolute Percentage Error (WAPE) by 21.65% compared to manual forecasts, while lowering under-buffering incidents and improving transparency for decision-makers. This work shows how contextual reinforcement learning, coupled with predictive modeling, can address operational forecasting challenges and bridge statistical rigor with practical decision-making in high-stakes logistics environments.
- Abstract(参考訳): 配送ステーションでのパッケージボリュームの正確な予測は、エラーが非効率なリソース割り当て、コストの上昇、配送遅延につながるラストマイルロジスティクスにとって重要である。
我々は,教師付き学習と強化学習に基づくバッファ制御と,生成型AI駆動通信モジュールを組み合わせた予測および意思決定支援フレームワークであるOpCommを提案する。
LightGBM回帰モデルは、離散アクションセットからバッファレベルを選択するPPO(Proximal Policy Optimization)エージェントのコンテキストとして機能する、ステーションレベルの需要予測を生成する。
報酬関数は過度なバッファーよりも過度のバッファーを減らし、非金属需要リスクと資源不効率の間の現実的なトレードオフを反映している。
ステーションの結果はモンテカルロの更新メカニズムを通じてフィードバックされ、継続的なポリシー適応を可能にする。
解釈可能性を高めるために、生成AIレイヤは、SHAPベースの特徴属性に基づくエグゼクティブレベルの要約とシナリオ分析を生成する。
400以上の駅で、OpCommは手動の予測よりも21.65%減らし、過度なインシデントを減らし、意思決定者にとって透明性を向上した。
この研究は、文脈強化学習と予測モデリングを併用して、運用予測課題に対処し、高度物流環境における統計的厳密さと実践的な意思決定を橋渡しする方法を示す。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。
本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。
LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文 参考訳(メタデータ) (2025-10-11T03:11:18Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Beamforming and Resource Allocation for Delay Minimization in RIS-Assisted OFDM Systems [38.71413228444903]
本稿では、ダウンリンク再構成可能なインテリジェントサーフェス(RIS)支援OFDMシステムにおけるビームフォーミングと資源配分の問題について検討する。
混合作用空間を効果的に処理し, 状態空間次元を低減するために, ハイブリッド深部強化学習(DRL)手法を提案する。
提案アルゴリズムは, 平均遅延を著しく低減し, 資源配分効率を向上し, システムの堅牢性と公平性を向上する。
論文 参考訳(メタデータ) (2025-06-04T05:33:33Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。