論文の概要: Automatic Policy Search using Population-Based Hyper-heuristics for the Integrated Procurement and Perishable Inventory Problem
- arxiv url: http://arxiv.org/abs/2511.00762v1
- Date: Sun, 02 Nov 2025 01:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.923078
- Title: Automatic Policy Search using Population-Based Hyper-heuristics for the Integrated Procurement and Perishable Inventory Problem
- Title(参考訳): 人口ベースハイパーヒューリスティックを用いた総合的調達とパーシブルインベントリ問題のための自動政策探索
- Authors: Leonardo Kanashiro Felizardo, Edoardo Fadda, Mariá Cristina Vasconcelos Nascimento,
- Abstract要約: 我々は,このマルチイテム・マルチサプライヤ問題に対する2つの最適化戦略を比較するために,離散イベントシミュレーション環境を開発する。
12の異なる事例から得られた結果は、超ヒューリスティックなフレームワークが常に優れたポリシーを識別していることを示している。
- 参考スコア(独自算出の注目度): 3.4792548480344245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of managing perishable inventory under multiple sources of uncertainty, including stochastic demand, unreliable supplier fulfillment, and probabilistic product shelf life. We develop a discrete-event simulation environment to compare two optimization strategies for this multi-item, multi-supplier problem. The first strategy optimizes uniform classic policies (e.g., Constant Order and Base Stock) by tuning their parameters globally, complemented by a direct search to select the best-fitting suppliers for the integrated problem. The second approach is a hyper-heuristic approach, driven by metaheuristics such as a Genetic Algorithm (GA) and Particle Swarm Optimization (PSO). This framework constructs a composite policy by automating the selection of the heuristic type, its parameters, and the sourcing suppliers on an item-by-item basis. Computational results from twelve distinct instances demonstrate that the hyper-heuristic framework consistently identifies superior policies, with GA and EGA exhibiting the best overall performance. Our primary contribution is verifying that this item-level policy construction yields significant performance gains over simpler global policies, thereby justifying the associated computational cost.
- Abstract(参考訳): 本稿では,確率的需要,信頼できないサプライヤの充足,確率的製品棚寿命など,複数の不確実性の源泉下での在庫管理の問題に対処する。
我々は,このマルチイテム・マルチサプライヤ問題に対する2つの最適化戦略を比較するために,離散イベントシミュレーション環境を開発する。
最初の戦略は、一貫した古典的ポリシー(例えば、定数順序とベースストック)を最適化し、パラメータをグローバルに調整し、直接探索によって補完し、統合された問題に最適なサプライヤーを選択する。
2つ目のアプローチは、遺伝的アルゴリズム(GA)や粒子群最適化(PSO)といったメタヒューリスティックなアプローチである。
このフレームワークは、ヒューリスティックなタイプ、パラメータ、およびソーシングサプライヤーの選択をアイテム単位で自動化することにより、複合ポリシーを構築する。
12の異なるインスタンスの計算結果から、ハイパーヒューリスティックなフレームワークは優れたポリシーを一貫して識別し、GAとEGAは全体的なパフォーマンスが最も優れていることを示している。
我々の主な貢献は、この項目レベルのポリシー構築がより単純なグローバルポリシーよりも大きなパフォーマンス向上をもたらし、それに伴う計算コストを正当化することである。
関連論文リスト
- Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Group Causal Policy Optimization for Post-Training Large Language Models [10.791474908144703]
グループ相対政策最適化(GRPO)は、補完性や矛盾といった意味的な相互作用を見越して、候補応答を独立したものとして扱う。
本稿では2つの重要なコンポーネントを通じて因果構造を最適化するグループ因果ポリシー最適化(GCPO)を提案する。
GCPOは、複数の推論ベンチマークでGRPOを含む既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T14:17:28Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply
Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。
本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文 参考訳(メタデータ) (2022-04-20T16:33:01Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。