論文の概要: InvEvolve: Evolving White-Box Inventory Policies via Large Language Models with Performance Guarantees
- arxiv url: http://arxiv.org/abs/2605.00369v2
- Date: Thu, 07 May 2026 10:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:05.857748
- Title: InvEvolve: Evolving White-Box Inventory Policies via Large Language Models with Performance Guarantees
- Title(参考訳): InvEvolve: パフォーマンス保証を備えた大規模言語モデルによるWhite-Box Inventory Policiesの進化
- Authors: Chenyu Huang, Jianghao Lin, Zhengyang Tang, Bo Jiang, Ruoqing Jiang, Benyou Wang, Lai Wei,
- Abstract要約: 我々は,大規模言語モデルを用いて,オンライン,非定常環境における在庫政策を進化させる方法について検討する。
InvEvolveは、信頼性とインターバルに基づく認証に基づく、エンドツーエンドのインベントリとポリティクスの進化と推論のフレームワークである。
- 参考スコア(独自算出の注目度): 34.54773957841899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how large language models can be used to evolve inventory policies in online, non-stationary environments. Our work is motivated by recent advances in LLM-based evolutionary search, such as AlphaEvolve, which demonstrates strong performance for static and highly structured problems such as mathematical discovery, but is not directly suited to online dynamic inventory settings. To this end, we propose InvEvolve, an end-to-end inventory-policy evolution and inference framework grounded in confidence-interval-based certification. The framework trains a large language model using reinforcement learning, incorporates demand data as well as numerical and textual features beyond demand, and generates white-box inventory policy with statistical safety guarantees for deployment in future periods. We further introduce a unified theoretical interface that connects training, inference, and deployment. This allows us to characterize the probability lower bound that the InvEvolve evolves a statistically safe and improved policy, and to quantify the multi-period performance gap relative to the oracle-safe benchmark. Tested on both synthetic data and real-world retail data, InvEvolve outperforms classical inventory policies and deep learning based methods. In canonical inventory settings, it evolves new policies that improve upon existing benchmarks.
- Abstract(参考訳): 我々は,大規模言語モデルを用いて,オンライン,非定常環境における在庫政策を進化させる方法について検討する。
我々の研究は、数学的発見のような静的で高度に構造化された問題に対して強力な性能を示すAlphaEvolveのようなLLMベースの進化的探索の最近の進歩によって動機付けられているが、オンラインの動的在庫設定には直接適していない。
この目的のために、信頼区間に基づく認証に基づくエンドツーエンドの在庫・政治の進化と推論フレームワークであるInvEvolveを提案する。
このフレームワークは、強化学習を用いて大規模な言語モデルを訓練し、需要データに加えて、需要を超えた数値的およびテキスト的特徴を取り入れ、将来の展開における統計的安全保証を備えたホワイトボックス在庫ポリシーを生成する。
さらに、トレーニング、推論、デプロイメントを接続する統一的な理論インターフェースを導入します。
これにより、InvEvolveが統計的に安全かつ改善されたポリシーを進化させる確率の低い境界を特徴付けることができ、オラクルセーフベンチマークに対する多周期性能ギャップを定量化することができる。
InvEvolveは、合成データと現実世界の小売データの両方でテストされ、古典的な在庫ポリシーやディープラーニングベースの手法よりも優れている。
標準在庫設定では、既存のベンチマークを改善する新しいポリシーを進化させる。
関連論文リスト
- Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - VC Theory for Inventory Policies [7.71791422193777]
我々は、いくつかのよく知られた在庫政策のクラスを学ぶための一般化保証を証明している。
コンテキストのない古典的な設定に焦点をあてるが、要求シーケンスの任意の分布が可能である。
本研究は,ブラックボックス学習機械にベースストックと在庫配置の概念を組み込むことが有用であることを示す。
論文 参考訳(メタデータ) (2024-04-17T16:05:03Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Deep Reinforcement Learning for Inventory Networks: Toward Reliable Policy Optimization [2.9016349714298157]
我々は、在庫管理が深層強化学習(DRL)の信頼性向上にユニークな機会をもたらすと論じている。
1つ目はHendsight Differentiable Policy Optimization (HDPO)であり、これはオフラインのカウンターファクトシミュレーションからパスワイズ勾配を用いてポリシー性能を直接かつ効率的に最適化する。
グラフニューラルネットワーク(GNN)を,サプライチェーン構造を符号化する自然な帰納バイアスとして利用し,最適かつほぼ最適なポリシを2つの理論的設定で表現できること,および6つの多様な在庫問題におけるデータ要求の低減を実証的に示す。
論文 参考訳(メタデータ) (2023-06-20T02:58:25Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。