論文の概要: ORPR: An OR-Guided Pretrain-then-Reinforce Learning Model for Inventory Management
- arxiv url: http://arxiv.org/abs/2512.19001v1
- Date: Mon, 22 Dec 2025 03:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.605442
- Title: ORPR: An OR-Guided Pretrain-then-Reinforce Learning Model for Inventory Management
- Title(参考訳): ORPR: 在庫管理のためのor-Guided Pretrain-then-Reinforce Learning Model
- Authors: Lingjie Zhao, Xue Yu, Yongzhi Qi, Hao Hu, Jianshen Zhang, Yingzheng Ma, Shuyu Han, Wei Qi, Zuo-Jun Max Shen,
- Abstract要約: プレトレイン-Then-Reinforce」アプローチは、AIの適応的認識をオペレーションリサーチの構造的厳密さと調和させる。
構造化OR論理で導かれる場合、軽量でドメインインフォームドモデルにより最先端の性能とロバストな転送性が得られることを示す。
- 参考スコア(独自算出の注目度): 9.138155308817215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the pursuit of synergy between Artificial Intelligence (AI) and Operations Research (OR) gains momentum in handling complex inventory systems, a critical challenge persists: how to effectively reconcile AI's adaptive perception with OR's structural rigor. To bridge this gap, we propose a novel OR-Guided "Pretrain-then-Reinforce" framework. To provide structured guidance, we propose a simulation-augmented OR model that generates high-quality reference decisions, implicitly capturing complex business constraints and managerial preferences. Leveraging these OR-derived decisions as foundational training labels, we design a domain-informed deep learning foundation model to establish foundational decision-making capabilities, followed by a reinforcement learning (RL) fine-tuning stage. Uniquely, we position RL as a deep alignment mechanism that enables the AI agent to internalize the optimality principles of OR, while simultaneously leveraging exploration for general policy refinement and allowing expert guidance for scenario-specific adaptation (e.g., promotional events). Validated through extensive numerical experiments and a field deployment at JD.com augmented by a Difference-in-Differences (DiD) analysis, our model significantly outperforms incumbent industrial practices, delivering real-world gains of a 5.27-day reduction in turnover and a 2.29% increase in in-stock rates, alongside a 29.95% decrease in holding costs. Contrary to the prevailing trend of brute-force model scaling, our study demonstrates that a lightweight, domain-informed model can deliver state-of-the-art performance and robust transferability when guided by structured OR logic. This approach offers a scalable and cost-effective paradigm for intelligent supply chain management, highlighting the value of deeply aligning AI with OR.
- Abstract(参考訳): 人工知能(AI)とオペレーショナル・リサーチ(OR)の相乗効果の追求が複雑な在庫システムの扱いにおいて勢いを増すにつれ、重要な課題が続いている。
このギャップを埋めるために, OR-Guided "Pretrain-then-Reinforce" フレームワークを提案する。
本研究では,複雑なビジネス制約や管理上の嗜好を暗黙的に捉え,高品質な参照決定を生成するシミュレーション拡張ORモデルを提案する。
これらのOR由来の意思決定を基礎的トレーニングラベルとして活用し、基礎的意思決定能力を確立するためにドメインインフォームドディープラーニング基盤モデルを設計し、続いて強化学習(RL)微調整ステージを設計する。
同様に、我々はRLを、AIエージェントがORの最適原則を内在化できる深いアライメントメカニズムとして位置づけ、同時に一般的な政策改善のための探索を活用し、シナリオ固有の適応(例えば、プロモーションイベント)に関する専門家のガイダンスを可能にする。
差分差分法(DiD)分析によるJD.comの大規模数値実験とフィールド展開による検証により,本モデルは既存産業の実践を著しく上回り,5.27日間のターンオーバー削減と2.29%のストックレート向上を実現し,29.95%の保有コスト削減を実現した。
ブルートフォースモデルスケーリングの一般的な傾向とは対照的に,本研究では,構造化OR論理でガイドされる場合,軽量でドメインインフォームドモデルにより,最先端のパフォーマンスと堅牢な転送性を提供できることを示す。
このアプローチは、インテリジェントサプライチェーン管理のためのスケーラブルでコスト効率のよいパラダイムを提供し、AIとORを深く整合させることの価値を強調します。
関連論文リスト
- Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search [32.56725829132154]
関係モデリングにおいて、明示的推論が解釈可能性と性能の両方を高めることができるかどうかを考察する。
本研究では,Xiaohongshu 検索における関連性モデリングを推論タスクとして定式化する。
本稿では,強化学習(Reinforcement Learning, RL)に基づく学習フレームワークを導入し, GRMの基盤的推論能力を向上させる。
論文 参考訳(メタデータ) (2025-11-30T16:31:16Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Evolutionary Reinforcement Learning for Interpretable Decision-Making in Supply Chain Management [3.195234044113248]
サプライチェーン管理(SCM)は、ほとんどのAIベースのソリューションの“ブラックボックス”の性質から、高度な最適化手法を採用する上での課題に直面している。
我々は、進化計算と強化学習(RL)を組み合わせた解釈可能な人工知能(IAI)アプローチを用いて、解釈可能な意思決定ポリシーを生成する。
このIAIソリューションは、現代のサプライチェーンの固有の不確実性や振舞いを処理するために特別に設計されたシミュレーションベースの最適化フレームワークに組み込まれている。
論文 参考訳(メタデータ) (2025-04-16T12:28:35Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning [36.01269673940484]
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
我々の理論的および実証的研究は、これらの要因がどのように価値推定と政策最適化を歪めているかを明らかにする。
我々は、バニラ報酬を改良し、価値学習を洗練させ、政策訓練を促進する統一確率的推論フレームワークを通じて、新しいシフトアウェア報酬を導出する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。