論文の概要: MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation
- arxiv url: http://arxiv.org/abs/2603.05760v1
- Date: Thu, 05 Mar 2026 23:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.694716
- Title: MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation
- Title(参考訳): MIRACL:多目的多目的コンビネーションチェーン最適化のための多目的メタ強化学習
- Authors: Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution,
- Abstract要約: 階層型メタMORLフレームワークであるMIRACLを導入し、多様なタスクにまたがる数ショットの一般化を可能にする。
MIRACL は従来の MORL のベースラインを単純から中程度のタスクで上回り、最大10% の高ボリュームを実現し、5% のより良いユーティリティを実現している。
- 参考スコア(独自算出の注目度): 3.2580935846865677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective reinforcement learning (MORL) is effective for multi-echelon combinatorial supply chain optimisation, where tasks involve high dimensionality, uncertainty, and competing objectives. However, its deployment in dynamic environments is hindered by the need for task-specific retraining and substantial computational cost. We introduce MIRACL (Meta multI-objective Reinforcement leArning with Composite Learning), a hierarchical Meta-MORL framework that allows for a few-shot generalisation across diverse tasks. MIRACL decomposes each task into structured subproblems for efficient policy adaptation and meta-learns a global policy across tasks using a Pareto-based adaptation strategy to encourage diversity in meta-training and fine-tuning. To our knowledge, this is the first integration of Meta-MORL with such mechanisms in combinatorial optimisation. Although validated in the supply chain domain, MIRACL is theoretically domain-agnostic and applicable to broader dynamic multi-objective decision-making problems. Empirical evaluations show that MIRACL outperforms conventional MORL baselines in simple to moderate tasks, achieving up to 10% higher hypervolume and 5% better expected utility. These results underscore the potential of MIRACL for robust, efficient adaptation in multi-objective problems.
- Abstract(参考訳): 多目的強化学習(MORL)は、高次元性、不確実性、競合する目的を含むマルチエキロン組合せサプライチェーン最適化に有効である。
しかし、その動的環境への展開は、タスク固有のリトレーニングと相当な計算コストの必要性によって妨げられている。
MIRACL(Meta multI-objective Reinforcement leArning with Composite Learning)は,多種多様なタスクにまたがる数ショットの一般化を可能にする階層型メタMORLフレームワークである。
MIRACLは、各タスクを効率的な政策適応のための構造化サブプロブレムに分解し、Paretoベースの適応戦略を用いてタスク全体にわたるグローバルポリシーを作成し、メタトレーニングと微調整の多様性を促進する。
我々の知る限り、これはMeta-MORLの組合せ最適化におけるそのようなメカニズムとの初めての統合である。
サプライチェーン領域で検証されるが、MIRACLは理論的にはドメインに依存しず、より広範な動的多目的意思決定問題に適用できる。
実証的な評価では、MIRACLは従来のMORLベースラインを、単純なタスクから適度なタスクで上回り、最大10%の高ボリューム、5%のより良いユーティリティを実現している。
これらの結果はMIRACLの多目的問題への堅牢で効率的な適応の可能性を強調している。
関連論文リスト
- MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning [68.91090643731987]
深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。
既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。
マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
論文 参考訳(メタデータ) (2026-02-28T16:25:22Z) - SMOG: Scalable Meta-Learning for Multi-Objective Bayesian Optimization [2.318371621318972]
本稿では,多出力ガウスプロセスに基づくスケーラブルでモジュール化されたメタラーニングモデルを提案する。
SMOGは階層的で並列なトレーニングをサポートする。 メタタスクのガウシアンプロセスは一度に適合し、その後キャッシュされ、メタタスクの数で線形スケーリングを実現する。
論文 参考訳(メタデータ) (2026-01-29T18:51:58Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。
PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。
PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文 参考訳(メタデータ) (2025-01-12T10:43:05Z) - Constrained Meta Agnostic Reinforcement Learning [2.3749120526936465]
制約モデル非依存メタラーニング(C-MAML)
C-MAMLは、トレーニングフェーズ中にタスク固有の制約を直接メタアルゴリズムフレームワークに組み込むことで、迅速かつ効率的なタスク適応を可能にする。
C-MAMLは, 動的環境下での実用性と頑健さを強調し, 複雑度の異なる車輪付きロボットタスクを用いたシミュレーションロコモーションにおける有効性を示す。
論文 参考訳(メタデータ) (2024-06-20T07:11:27Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Distributed Evolution Strategies with Multi-Level Learning for Large-Scale Black-Box Optimization [13.750841199401613]
本稿では,CMA-ES(Re limited-Memory CMA-ES)と呼ばれる,CMA-ES(Re limited-Memory CMA-ES)とCMA-ES(Restrict-Memory CMA-ES)を並列化する手法を提案する。
分散LM-CMAのためのマルチレベル学習ベースのメタフレームワークを提案する。階層的に構成された構造のため、Meta-ESは分散メタフレームワークを実装するのに適している。
論文 参考訳(メタデータ) (2023-10-09T03:24:51Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。