論文の概要: Deep Learning for Perishable Inventory Systems with Human Knowledge
- arxiv url: http://arxiv.org/abs/2601.15589v1
- Date: Thu, 22 Jan 2026 02:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.469785
- Title: Deep Learning for Perishable Inventory Systems with Human Knowledge
- Title(参考訳): 人間の知識を活かした分かりやすいインベントリシステムのためのディープラーニング
- Authors: Xuan Liao, Zhenkang Peng, Ying Rong,
- Abstract要約: 本研究では,需要プロセスと鉛時間分布の双方が未知な,ランダムな鉛時間による透水性在庫システムについて検討する。
我々は、各注文に一生涯のコストを割り当て、エンドツーエンドの学習に統一的な損失関数を与える限界費用会計方式を採用する。
我々は、注文量を直接出力する純粋ブラックボックスアプローチ(E2E-BB)と、予測在庫レベル(PIL)ポリシーを組み込んだ構造誘導アプローチの2つのエンドツーエンド変種を開発する。
- 参考スコア(独自算出の注目度): 0.6920276126310231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing perishable products with limited lifetimes is a fundamental challenge in inventory management, as poor ordering decisions can quickly lead to stockouts or excessive waste. We study a perishable inventory system with random lead times in which both the demand process and the lead time distribution are unknown. We consider a practical setting where orders are placed using limited historical data together with observed covariates and current system states. To improve learning efficiency under limited data, we adopt a marginal cost accounting scheme that assigns each order a single lifetime cost and yields a unified loss function for end-to-end learning. This enables training a deep learning-based policy that maps observed covariates and system states directly to order quantities. We develop two end-to-end variants: a purely black-box approach that outputs order quantities directly (E2E-BB), and a structure-guided approach that embeds the projected inventory level (PIL) policy, capturing inventory effects through explicit computation rather than additional learning (E2E-PIL). We further show that the objective induced by E2E-PIL is homogeneous of degree one, enabling a boosting technique from operational data analytics (ODA) that yields an enhanced policy (E2E-BPIL). Experiments on synthetic and real data establish a robust performance ordering: E2E-BB is dominated by E2E-PIL, which is further improved by E2E-BPIL. Using an excess-risk decomposition, we show that embedding heuristic policy structure reduces effective model complexity and improves learning efficiency with only a modest loss of flexibility. More broadly, our results suggest that deep learning-based decision tools are more effective and robust when guided by human knowledge, highlighting the value of integrating advanced analytics with inventory theory.
- Abstract(参考訳): 在庫管理において、生鮮度が低い製品を管理することは、在庫管理における根本的な課題である。
本研究では,需要プロセスと鉛時間分布の双方が未知な,ランダムな鉛時間による透水性在庫システムについて検討する。
我々は、観測された共変量や現在のシステム状態とともに、限られた履歴データを用いて注文を配置する実践的な設定について考察する。
限られたデータの下での学習効率を向上させるために,各注文に一生涯のコストを割り当て,エンド・ツー・エンドの学習に統一的な損失関数を与える限界費用会計方式を採用する。
これにより、観測された共変量とシステム状態を直接順序付けする深層学習ベースのポリシーのトレーニングが可能になる。
注文量を直接出力する純ブラックボックスアプローチ(E2E-BB)と、予測在庫レベル(PIL)ポリシーを組み込んだ構造誘導アプローチ(E2E-PIL)と、追加学習(E2E-PIL)ではなく明示的な計算によって在庫効果をキャプチャする。
さらに、E2E-PILによって誘導される目的が次数1の均質であることを示し、拡張ポリシー(E2E-BPIL)をもたらすオペレーショナルデータ分析(ODA)からの促進技術を可能にする。
E2E-BBはE2E-PILが支配しており、E2E-BPILによりさらに改善されている。
過度なリスク分解を用いて、ヒューリスティックなポリシー構造を組み込むことで、効率的なモデルの複雑さを減らし、柔軟性を損なうことなく学習効率を向上させることを示す。
より広義には、ディープラーニングに基づく意思決定ツールは、人間の知識によってガイドされる場合、より効果的で堅牢であることが示唆され、高度な分析と在庫理論を統合することの価値が強調された。
関連論文リスト
- Active Learning Using Aggregated Acquisition Functions: Accuracy and Sustainability Analysis [14.398823059302279]
Active Learning(AL)は、トレーニング中のアノテーションの最も情報性の高いサンプルを戦略的に選択する機械学習アプローチである。
この戦略はラベリングコストを削減するだけでなく、ニューラルネットワークトレーニング時の省エネにも寄与する。
我々は、その精度と計算コストを分析して、最先端の取得機能を実装し、評価する。
論文 参考訳(メタデータ) (2026-02-07T08:42:12Z) - Evolutionary Strategies lead to Catastrophic Forgetting in LLMs [51.91763220981834]
進化戦略(Evolutionary Strategies, ES)は、最近、従来の学習アルゴリズムの勾配のない代替品として再登場した。
ESは計算予算に匹敵する計算量で、数学や推論タスクのGRPOに近いパフォーマンス数に達することができる。
ESは、事前能力の大幅な忘れを伴い、オンラインのトレーニングモデルの適用性を制限している。
論文 参考訳(メタデータ) (2026-01-28T18:59:34Z) - Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting [40.80967570661867]
言語モデルをポストトレーニングによって新しいタスクに適応することは、既存の能力を劣化させるリスクをもたらす。
教師付き微調整(SFT)と強化学習(RL)の2つの広く採用されているポストトレーニング手法の忘れパターンを比較した。
RLはSFTよりも忘れられがちだが、目標タスクのパフォーマンスは同等か高い。
論文 参考訳(メタデータ) (2025-10-21T17:59:41Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。
本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。
事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文 参考訳(メタデータ) (2024-04-01T00:21:11Z) - E2E-AT: A Unified Framework for Tackling Uncertainty in Task-aware
End-to-end Learning [9.741277008050927]
本稿では,機械学習モデルの入力特徴空間と制約付き最適化モデルの両方で生じる不確実性をカバーする統一フレームワークを提案する。
トレーニング中にCOの不確かさを無視することは、一般化エラーの新たな引き金となる。
このフレームワークはロバストな最適化問題として記述され、エンド・ツー・エンドの対角訓練(E2E-AT)によって現実的に解決されている。
論文 参考訳(メタデータ) (2023-12-17T02:23:25Z) - Parcel loss prediction in last-mile delivery: deep and non-deep
approaches with insights from Explainable AI [1.104960878651584]
本稿では,DBSLを用いたデータバランスとDHEL(Deep Hybrid Ensemble Learning)の2つの機械学習手法を提案する。
このような予測の実際的な意味は、保険関連意思決定ポリシーの最適化において、eコマース小売業者を支援することの価値である。
論文 参考訳(メタデータ) (2023-10-25T12:46:34Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply
Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。
本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文 参考訳(メタデータ) (2022-04-20T16:33:01Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。