Fugu-MT 論文翻訳(概要): Optimal and Order-optimal Gated Priority-based Greedy Policies for Two-layer Multi-item Order Fulfillment

論文の概要: Optimal and Order-optimal Gated Priority-based Greedy Policies for Two-layer Multi-item Order Fulfillment

arxiv url: http://arxiv.org/abs/2605.25888v1
Date: Mon, 25 May 2026 14:16:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:20.249841
Title: Optimal and Order-optimal Gated Priority-based Greedy Policies for Two-layer Multi-item Order Fulfillment
Title（参考訳）: 2層多面体次数フルフィルメントのための最適・最適ゲート優先型グレディポリシ
Authors: Xi Chen, Yuze Chen, Ziyi Chen, Yuan Zhou,
Abstract要約: 複数項目の顧客注文が順次届き、将来の需要が不明な場合に、Eコマース企業がリアルタイムのフルフィルメント決定を行う方法を検討する。複数のFDC、地域分布センター(RDC)、複数単位のマルチテムオーダー、アイテム特化および時間変動変動コストを備えた対戦型オンラインモデルを定式化する。我々の理論的目的は、シンプルで、解釈可能で、実装可能なフルフィルメントルールが最適な透かしプランナーとほぼ同等に実行可能であることを特徴付けることである。
参考スコア（独自算出の注目度）: 12.192024626404482
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study how an e-commerce firm should make real-time fulfillment decisions in a two-layer distribution network when multi-item customer orders arrive sequentially and future demand is unknown. The central managerial tension is whether to use scarce front distribution center (FDC) inventory to save current fulfillment cost or preserve that inventory for future orders that may be more valuable to serve locally. We formulate an adversarial online model with multiple FDCs, one regional distribution center (RDC), multi-unit multi-item orders, and item-specific and time-varying variable costs. Our theoretical objective is to characterize when simple, interpretable, and implementable fulfillment rules can perform nearly as well as an optimal clairvoyant planner. We develop a family of Gated Priority-based Greedy policies, derive competitive-ratio guarantees under both time-varying and time-invariant cost structures, and establish matching or near-matching lower bounds for any online algorithm. Numerical experiments show that the proposed policies perform strongly relative to generalized myopic and forecast-based benchmarks. The analysis yields managerial guidance on when local inventory should be protected, when splitting orders is worth the fixed-cost burden, and how the relative magnitudes of fixed and variable costs determine the value of more sophisticated optimization.
Abstract（参考訳）: 本研究は,eコマース企業が2層配電網におけるリアルタイムのフルフィルメント決定を,複数項目の顧客注文が順次届き,今後の需要が不明な場合に行うかを検討する。中央管理の緊張は、現状の充足コストを抑えるため、または、現地でサービスする上でより価値のある将来の注文のために在庫を保存するために、不足したフロント・ディストリクト・センター(FDC)の在庫を利用するかどうかである。複数のFDC,1つの地域分布センター(RDC),複数単位のマルチテムオーダー,アイテム特化および時間変動変動コストを備えた対戦型オンラインモデルを定式化する。我々の理論的目的は、シンプルで、解釈可能で、実装可能なフルフィルメントルールが最適な透かしプランナーとほぼ同等に実行可能であることを特徴付けることである。我々は、Gated PriorityベースのGreedyポリシーのファミリーを開発し、時間的変化と時間的不変のコスト構造の両方の下で競争率保証を導出し、オンラインアルゴリズムのマッチングやほぼ一致の低いバウンダリを確立する。数値実験により,提案手法は一般化された筋電図および予測に基づくベンチマークに対して強く作用することが示された。この分析は、地域在庫がいつ保護されるべきか、注文の分割が固定コスト負担に値する場合、固定コストと可変コストの相対的な大きさがより洗練された最適化の価値を決定するか、といった管理上のガイダンスを与える。

関連論文リスト

Plan Before You Trade: Inference-Time Optimization for RL Trading Agents [8.39123686251568]
ポートフォリオ管理のための強化学習エージェントは通常、静的ポリシーとしてトレーニングされ、デプロイされる。モデル予測制御(MPC)にインスパイアされたプラグイン推論時間最適化フレームワークを提案する。我々のフレームワークは、事前訓練されたエージェントと互換性があり、リトレーニングすることなく、予測者の予測にポリシーを適用する。
論文参考訳（メタデータ） (2026-05-12T18:58:03Z)
One Global Model, Many Behaviors: Stockout-Aware Feature Engineering and Dynamic Scaling for Multi-Horizon Retail Demand Forecasting with a Cost-Aware Ordering Policy (VN2 Winner Report) [0.0]
本報告では,VN2 Inventory Planning Challengeの優勝ソリューションについて述べる。単一のグローバルなマルチホライゾン予測モデルとコスト対応注文ポリシを組み合わせる。 VN2設定のために開発されたが、提案手法は現実世界のアプリケーションに拡張できる。
論文参考訳（メタデータ） (2026-01-26T19:36:52Z)
Automatic Policy Search using Population-Based Hyper-heuristics for the Integrated Procurement and Perishable Inventory Problem [3.4792548480344245]
我々は,このマルチイテム・マルチサプライヤ問題に対する2つの最適化戦略を比較するために,離散イベントシミュレーション環境を開発する。 12の異なる事例から得られた結果は、超ヒューリスティックなフレームワークが常に優れたポリシーを識別していることを示している。
論文参考訳（メタデータ） (2025-11-02T01:27:52Z)
Bayesian Optimization for Dynamic Pricing and Learning [0.306238659426286]
ダイナミックな価格設定は、市場の需要に応じて企業の収益を最大化するために製品の販売価格を調整するプラクティスである。従来の手法では需要関数の特定のパラメトリック形式を前提としており、強化学習(RL)を用いて最適に近い価格戦略を特定できる。本稿では,制約付きモデリング仮定を避けるために,動的価格に対する非パラメトリックなアプローチを提案する。
論文参考訳（メタデータ） (2025-10-14T12:28:06Z)
Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。 Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文参考訳（メタデータ） (2025-09-30T22:19:44Z)
TAT: Temporal-Aligned Transformer for Multi-Horizon Peak Demand Forecasting [51.37167759339485]
本稿では,アプリロリで知られたコンテキスト変数を利用して予測性能を向上させるマルチホライゾン予測器であるTemporal-Aligned Transformer (TAT)を提案する。我々のモデルはエンコーダとデコーダで構成されており、どちらもピーク需要予測のためのコンテキスト依存アライメントを学習するための新しい時間アライメントアテンション(TAA)を組み込んでいる。以上の結果から,TATはピーク需要予測において30%の精度を実現し,他の最先端手法と比較して総合的な性能を維持した。
論文参考訳（メタデータ） (2025-07-14T14:51:24Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Spatial Supply Repositioning with Censored Demand Data [10.797160099834306]
我々は、一方通行のオンデマンド車両共有サービスによるネットワーク在庫システムについて検討する。このような一般的な在庫ネットワークにおいて最適なポリシーを見つけることは解析的にも計算的にも困難である。我々の研究は、共有モビリティビジネスの生存性における在庫管理の重要性を強調している。
論文参考訳（メタデータ） (2025-01-31T15:16:02Z)
A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文参考訳（メタデータ） (2024-07-08T09:55:31Z)
Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。様々な合成TPPインスタンスとTPPLIBベンチマークの実験により、我々のDRLベースのアプローチは、確立されたTPPを著しく上回ることを示した。
論文参考訳（メタデータ） (2024-04-03T05:32:10Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。