論文の概要: gym-invmgmt: An Open Benchmarking Framework for Inventory Management Methods
- arxiv url: http://arxiv.org/abs/2605.11355v1
- Date: Tue, 12 May 2026 00:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.489908
- Title: gym-invmgmt: An Open Benchmarking Framework for Inventory Management Methods
- Title(参考訳): gym-invmgmt: インベントリ管理のためのオープンベンチマークフレームワーク
- Authors: Reza Barati, Qinmin Vivian Hu,
- Abstract要約: Gym-invmgmtは、監査可能なクロスパラダイム評価のためのOR-Gymインベントリ管理系統の拡張である。
Gymnasium互換のOR-Gymインベントリ管理系統であるGimmom-invmgmtを聴覚的クロスパラダイム評価のために提案する。
- 参考スコア(独自算出の注目度): 1.0799969476894555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inventory-policy comparisons are often difficult to interpret because performance depends on the evaluation contract as much as on the policy itself. Differences in topology, demand regime, information access, feasibility constraints, shortage treatment, and Key Performance Indicator (KPI) definitions can change method rankings. We present gym-invmgmt, a Gymnasium-compatible extension of the OR-Gym inventory-management lineage for auditable cross-paradigm evaluation. The benchmark evaluates optimization, heuristic, and learned controllers under a shared CoreEnv transition, reward, action-bound, and KPI contract, while varying stress conditions through a 22-scenario core grid plus four supplemental MARL-mode rows. Within these released scenarios, informed stochastic programming provides the strongest non-oracle reference, reflecting the value of scenario hedging under forecast access, but at substantially higher online computational cost. Among learned controllers, the Proximal Policy Optimization Transformer variant (PPO-Transformer) achieves the strongest learned-policy quality at fast inference, while Residual Reinforcement Learning (Residual RL) provides competitive hybrid performance. The graph neural network variant (PPO-GNN) is highly competitive on the default divergent topology but less robust on the serial topology. Imitation learning performs well in stationary regimes but degrades under demand shift, and the bounded Large Language Model (LLM) policy-parameter baseline is best interpreted as a diagnostic controller rather than an autonomous inventory optimizer. Overall, the benchmark identifies scenario-conditioned leaders while showing that performance depends jointly on information access, demand shift, topology, and policy representation.
- Abstract(参考訳): インベントリ・ポリティクスの比較は、政策そのものよりも評価契約に依存しているため、解釈が難しいことが多い。
トポロジ、需要状況、情報アクセス、実現可能性制約、不足処理、キーパフォーマンス指標(KPI)の定義の違いは、メソッドのランキングを変えることができる。
Gymnasium互換のOR-Gymインベントリ管理系統であるGimmom-invmgmtを聴覚的クロスパラダイム評価のために提案する。
このベンチマークは、CoreEnvトランジション、報酬、アクションバウンド、KPIコントラクトの共有の下で最適化、ヒューリスティック、学習されたコントローラを評価し、22-scenarioコアグリッドと4つの補足MARLモード行を介してストレス条件を変化させる。
これらのリリースシナリオの中では、インフォデント確率プログラミングは、予測アクセス下でのシナリオヘッジの価値を反映しながら、オンライン計算コストを大幅に高める、最も強力な非オラクル参照を提供する。
学習コントローラの中では、PPO-Transformer 変種(PPO-Transformer 変種)が高速な推論で最強の学習政治品質を達成し、Residual Reinforcement Learning (Residual RL) は競争力のあるハイブリッド性能を提供する。
グラフニューラルネットワークの変種(PPO-GNN)は、デフォルトの発散トポロジーでは高い競争力を持つが、シリアルトポロジーでは堅牢ではない。
シミュレーション学習は、定常的な状況下ではうまく機能するが、需要シフトにより劣化し、境界付き大規模言語モデル(LLM)ポリシーパラメーターベースラインは、自律的な在庫最適化よりも診断コントローラとして最もよく解釈される。
全体として、ベンチマークはシナリオ条件付きリーダを特定し、パフォーマンスが情報アクセス、需要シフト、トポロジ、ポリシー表現に共同で依存していることを示します。
関連論文リスト
- Relative Score Policy Optimization for Diffusion Language Models [29.344961499429257]
拡散大言語モデル(dLLMs)は、並列かつ効率的なテキスト生成への有望な経路を提供する。
抽出可能なシーケンスレベルのログ比の欠如により、既存の手法は高分散ELBOベースの近似に頼らざるを得なくなった。
textbfRelative textbfScore textbfPolicy textbfOptimization (RSPO)を提案する。
論文 参考訳(メタデータ) (2026-05-11T08:58:40Z) - GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL [7.213487945222728]
GEM(Guided expectation-Maximization)は,マルチモーダルかつ制御可能なアクション選択を実現する分析フレームワークである。
推測中、GEMは、行動正規化サポートと結びついた保守的なアンサンブルの低信頼を用いて、候補ベースの選択を行う。
実証的には、GEMはD4RLベンチマークで競合し、計算を再トレーニングせずに意思決定品質と交換する単純な推論時予算ノブ(候補数)を提供する。
論文 参考訳(メタデータ) (2026-03-24T14:04:43Z) - Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards [14.535325886547112]
RAGシステムは、ユーザがセマンティックに等価なクエリ間で出力が一貫性があることを期待する、ハイテイクなドメインにますますデプロイされている。
既存のシステムは、レトリバーとジェネレータの両方のばらつきにより、しばしば重大な矛盾を示す。
本稿では,RAGの一貫性をレトリバーレベル,ジェネレータレベル,エンド・ツー・エンドのコンポーネントに分解する基本的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T23:14:13Z) - Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization [6.408943565801689]
潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。
我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。
我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
論文 参考訳(メタデータ) (2025-07-25T17:08:16Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。