論文の概要: Reinforcement Learning for AMR Charging Decisions: The Impact of Reward and Action Space Design
- arxiv url: http://arxiv.org/abs/2505.11136v1
- Date: Fri, 16 May 2025 11:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.791775
- Title: Reinforcement Learning for AMR Charging Decisions: The Impact of Reward and Action Space Design
- Title(参考訳): AMR帯電決定のための強化学習:リワードとアクションスペース設計の影響
- Authors: Janik Bischoff, Alexandru Rinciog, Anne Meyer,
- Abstract要約: 大規模ブロック積み重ね倉庫における自律移動ロボットの充電戦略を最適化するための新しい強化学習(RL)設計を提案する。
本研究は、フレキシブルな設定から、よりガイド付きでドメインインフォームドな設計構成まで、さまざまな報酬とアクション空間の構成がエージェントのパフォーマンスにどのように影響するかに焦点を当てる。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel reinforcement learning (RL) design to optimize the charging strategy for autonomous mobile robots in large-scale block stacking warehouses. RL design involves a wide array of choices that can mostly only be evaluated through lengthy experimentation. Our study focuses on how different reward and action space configurations, ranging from flexible setups to more guided, domain-informed design configurations, affect the agent performance. Using heuristic charging strategies as a baseline, we demonstrate the superiority of flexible, RL-based approaches in terms of service times. Furthermore, our findings highlight a trade-off: While more open-ended designs are able to discover well-performing strategies on their own, they may require longer convergence times and are less stable, whereas guided configurations lead to a more stable learning process but display a more limited generalization potential. Our contributions are threefold. First, we extend SLAPStack, an open-source, RL-compatible simulation-framework to accommodate charging strategies. Second, we introduce a novel RL design for tackling the charging strategy problem. Finally, we introduce several novel adaptive baseline heuristics and reproducibly evaluate the design using a Proximal Policy Optimization agent and varying different design configurations, with a focus on reward.
- Abstract(参考訳): 大規模ブロック積み重ね倉庫における自律移動ロボットの充電戦略を最適化するための新しい強化学習(RL)設計を提案する。
RL設計には幅広い選択肢が伴い、長い実験を通じてのみ評価できる。
本研究は、フレキシブルな設定から、よりガイド付きでドメインインフォームドな設計構成まで、さまざまな報酬とアクション空間の構成がエージェントのパフォーマンスにどのように影響するかに焦点を当てる。
ヒューリスティック充電戦略をベースラインとして、サービス時間の観点から柔軟なRLベースのアプローチの優位性を実証する。
さらに、我々の発見はトレードオフを浮き彫りにしている: よりオープンなデザインは、自分自身で優れた戦略を発見できるが、より長い収束時間を必要とし、安定性が低い一方、ガイド付き構成はより安定した学習プロセスをもたらすが、より限定的な一般化可能性を示す。
私たちの貢献は3倍です。
まず、充電戦略に対応するために、オープンソースのRL互換のシミュレーションフレームワークであるSLAPStackを拡張します。
第2に、充電戦略問題に取り組むための新しいRL設計を提案する。
最後に, 適応的ベースラインヒューリスティックスを導入し, 近似ポリシー最適化エージェントと様々な設計構成を用いて設計を再現的に評価し, 報酬に焦点をあてる。
関連論文リスト
- Structural Design Through Reinforcement Learning [0.7874708385247352]
Sogymは、トポロジ最適化(TO)における機械学習を促進するために設計された、オープンソースの強化学習環境である。
これは、TOの物理学を報酬関数に統合することで、物理的に実現可能で構造的に堅牢な設計を生成する。
論文 参考訳(メタデータ) (2024-07-10T00:38:08Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Proximal Curriculum for Reinforcement Learning Agents [17.654532900660712]
近縁開発ゾーン(ZPD)の教育的概念に触発されたカリキュラム戦略であるProCuRLを設計する。
ProCuRLは、学習者が難しすぎても難しすぎるタスクを選択するとき、学習の進捗が最大になるという直感を捉えます。
論文 参考訳(メタデータ) (2023-04-25T14:49:34Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。
我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。
本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-22T20:44:04Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - Integrating Distributed Architectures in Highly Modular RL Libraries [4.297070083645049]
ほとんどの人気のある強化学習ライブラリは、高度にモジュール化されたエージェントの構成性を主張している。
本稿では、RLエージェントを独立した再利用可能なコンポーネントによって異なるスケールで定義できる汎用的アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-06T10:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。