論文の概要: Deep Learning for Perishable Inventory Systems with Human Knowledge
- arxiv url: http://arxiv.org/abs/2601.15589v1
- Date: Thu, 22 Jan 2026 02:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.469785
- Title: Deep Learning for Perishable Inventory Systems with Human Knowledge
- Title(参考訳): 人間の知識を活かした分かりやすいインベントリシステムのためのディープラーニング
- Authors: Xuan Liao, Zhenkang Peng, Ying Rong,
- Abstract要約: 本研究では,需要プロセスと鉛時間分布の双方が未知な,ランダムな鉛時間による透水性在庫システムについて検討する。
我々は、各注文に一生涯のコストを割り当て、エンドツーエンドの学習に統一的な損失関数を与える限界費用会計方式を採用する。
我々は、注文量を直接出力する純粋ブラックボックスアプローチ(E2E-BB)と、予測在庫レベル(PIL)ポリシーを組み込んだ構造誘導アプローチの2つのエンドツーエンド変種を開発する。
- 参考スコア(独自算出の注目度): 0.6920276126310231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing perishable products with limited lifetimes is a fundamental challenge in inventory management, as poor ordering decisions can quickly lead to stockouts or excessive waste. We study a perishable inventory system with random lead times in which both the demand process and the lead time distribution are unknown. We consider a practical setting where orders are placed using limited historical data together with observed covariates and current system states. To improve learning efficiency under limited data, we adopt a marginal cost accounting scheme that assigns each order a single lifetime cost and yields a unified loss function for end-to-end learning. This enables training a deep learning-based policy that maps observed covariates and system states directly to order quantities. We develop two end-to-end variants: a purely black-box approach that outputs order quantities directly (E2E-BB), and a structure-guided approach that embeds the projected inventory level (PIL) policy, capturing inventory effects through explicit computation rather than additional learning (E2E-PIL). We further show that the objective induced by E2E-PIL is homogeneous of degree one, enabling a boosting technique from operational data analytics (ODA) that yields an enhanced policy (E2E-BPIL). Experiments on synthetic and real data establish a robust performance ordering: E2E-BB is dominated by E2E-PIL, which is further improved by E2E-BPIL. Using an excess-risk decomposition, we show that embedding heuristic policy structure reduces effective model complexity and improves learning efficiency with only a modest loss of flexibility. More broadly, our results suggest that deep learning-based decision tools are more effective and robust when guided by human knowledge, highlighting the value of integrating advanced analytics with inventory theory.
- Abstract(参考訳): 在庫管理において、生鮮度が低い製品を管理することは、在庫管理における根本的な課題である。
本研究では,需要プロセスと鉛時間分布の双方が未知な,ランダムな鉛時間による透水性在庫システムについて検討する。
我々は、観測された共変量や現在のシステム状態とともに、限られた履歴データを用いて注文を配置する実践的な設定について考察する。
限られたデータの下での学習効率を向上させるために,各注文に一生涯のコストを割り当て,エンド・ツー・エンドの学習に統一的な損失関数を与える限界費用会計方式を採用する。
これにより、観測された共変量とシステム状態を直接順序付けする深層学習ベースのポリシーのトレーニングが可能になる。
注文量を直接出力する純ブラックボックスアプローチ(E2E-BB)と、予測在庫レベル(PIL)ポリシーを組み込んだ構造誘導アプローチ(E2E-PIL)と、追加学習(E2E-PIL)ではなく明示的な計算によって在庫効果をキャプチャする。
さらに、E2E-PILによって誘導される目的が次数1の均質であることを示し、拡張ポリシー(E2E-BPIL)をもたらすオペレーショナルデータ分析(ODA)からの促進技術を可能にする。
E2E-BBはE2E-PILが支配しており、E2E-BPILによりさらに改善されている。
過度なリスク分解を用いて、ヒューリスティックなポリシー構造を組み込むことで、効率的なモデルの複雑さを減らし、柔軟性を損なうことなく学習効率を向上させることを示す。
より広義には、ディープラーニングに基づく意思決定ツールは、人間の知識によってガイドされる場合、より効果的で堅牢であることが示唆され、高度な分析と在庫理論を統合することの価値が強調された。
関連論文リスト
- Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - E2E-AT: A Unified Framework for Tackling Uncertainty in Task-aware
End-to-end Learning [9.741277008050927]
本稿では,機械学習モデルの入力特徴空間と制約付き最適化モデルの両方で生じる不確実性をカバーする統一フレームワークを提案する。
トレーニング中にCOの不確かさを無視することは、一般化エラーの新たな引き金となる。
このフレームワークはロバストな最適化問題として記述され、エンド・ツー・エンドの対角訓練(E2E-AT)によって現実的に解決されている。
論文 参考訳(メタデータ) (2023-12-17T02:23:25Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply
Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。
本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文 参考訳(メタデータ) (2022-04-20T16:33:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。