論文の概要: Distributionally Robust Multi-Agent Reinforcement Learning for Dynamic Chute Mapping
- arxiv url: http://arxiv.org/abs/2503.09755v1
- Date: Wed, 12 Mar 2025 18:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:08.848083
- Title: Distributionally Robust Multi-Agent Reinforcement Learning for Dynamic Chute Mapping
- Title(参考訳): 動的シュートマッピングのための分布ロバストなマルチエージェント強化学習
- Authors: Guangyi Liu, Suzan Iloglu, Michael Caldara, Joseph W. Durham, Michael M. Zavlanos,
- Abstract要約: Amazonのロボット倉庫では、行き先とシュートをマッピングする問題は、効率的なパッケージソートに不可欠である。
本稿では,誘導率の逆方向変動に耐性のある宛先間マッピングポリシを学習する,分散ロバストなマルチエージェント強化学習フレームワークを提案する。
DRMARLは,様々な誘導分布が存在する場合の堅牢なシュートマッピングを実現し,シミュレーションシナリオにおけるパッケージ再循環を平均80%低減することを示す。
- 参考スコア(独自算出の注目度): 12.78977546421283
- License:
- Abstract: In Amazon robotic warehouses, the destination-to-chute mapping problem is crucial for efficient package sorting. Often, however, this problem is complicated by uncertain and dynamic package induction rates, which can lead to increased package recirculation. To tackle this challenge, we introduce a Distributionally Robust Multi-Agent Reinforcement Learning (DRMARL) framework that learns a destination-to-chute mapping policy that is resilient to adversarial variations in induction rates. Specifically, DRMARL relies on group distributionally robust optimization (DRO) to learn a policy that performs well not only on average but also on each individual subpopulation of induction rates within the group that capture, for example, different seasonality or operation modes of the system. This approach is then combined with a novel contextual bandit-based predictor of the worst-case induction distribution for each state-action pair, significantly reducing the cost of exploration and thereby increasing the learning efficiency and scalability of our framework. Extensive simulations demonstrate that DRMARL achieves robust chute mapping in the presence of varying induction distributions, reducing package recirculation by an average of 80\% in the simulation scenario.
- Abstract(参考訳): Amazonのロボット倉庫では、行き先とシュートをマッピングする問題は、効率的なパッケージソートに不可欠である。
しかし、この問題は不確実かつ動的パッケージ誘導率によって複雑になり、パッケージ再循環が増大する可能性がある。
この課題に対処するために、誘導率の逆変動に耐性のある宛先対応マッピングポリシーを学習する、分散ロバストなマルチエージェント強化学習(DRMARL)フレームワークを導入する。
具体的には、DRMARLはグループ分布的ロバストな最適化(DRO)に頼り、平均だけでなく、システムの季節性や運用モードの異なるグループ内での誘導率の個々のサブポピュレーションにもよく機能するポリシーを学ぶ。
この手法は,各状態-動作ペアに対する最悪の帰納分布のコンテキスト的帯域ベース予測器と組み合わせて,探索コストを大幅に削減し,フレームワークの学習効率と拡張性を向上させる。
拡張シミュレーションにより, DRMARLは様々な誘導分布の存在下で頑健なシュートマッピングを実現し, シミュレーションシナリオにおけるパッケージ再循環を平均80%低減することを示した。
関連論文リスト
- Parallelly Tempered Generative Adversarial Networks [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。
我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。
適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文 参考訳(メタデータ) (2023-12-20T15:50:16Z) - Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。
我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。
我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文 参考訳(メタデータ) (2023-08-30T08:46:46Z) - Attacks on Robust Distributed Learning Schemes via Sensitivity Curve
Maximization [37.464005524259356]
曲線の感度(SCM)に基づく新たな攻撃法を提案する。
我々は, 従来の頑健なアグリゲーションスキームを, 小さいが効果的な摂動を注入することで破壊できることを実証した。
論文 参考訳(メタデータ) (2023-04-27T08:41:57Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。