論文の概要: Reinforcement Learning for Location-Aware Scheduling
- arxiv url: http://arxiv.org/abs/2203.03480v1
- Date: Mon, 7 Mar 2022 15:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:39:28.517888
- Title: Reinforcement Learning for Location-Aware Scheduling
- Title(参考訳): 位置対応スケジューリングのための強化学習
- Authors: Stelios Stavroulakis and Biswa Sengupta
- Abstract要約: 倉庫環境の様々な側面がパフォーマンスや実行の優先順位にどのように影響するかを示す。
位置認識型マルチエージェントシステムのための状態空間と動作空間のコンパクト表現を提案する。
また、特定の環境で訓練されたエージェントが、完全に見えない環境でパフォーマンスを維持する方法を示す。
- 参考スコア(独自算出の注目度): 1.0660480034605238
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent techniques in dynamical scheduling and resource management have found
applications in warehouse environments due to their ability to organize and
prioritize tasks in a higher temporal resolution. The rise of deep
reinforcement learning, as a learning paradigm, has enabled decentralized agent
populations to discover complex coordination strategies. However, training
multiple agents simultaneously introduce many obstacles in training as
observation and action spaces become exponentially large. In our work, we
experimentally quantify how various aspects of the warehouse environment (e.g.,
floor plan complexity, information about agents' live location, level of task
parallelizability) affect performance and execution priority. To achieve
efficiency, we propose a compact representation of the state and action space
for location-aware multi-agent systems, wherein each agent has knowledge of
only self and task coordinates, hence only partial observability of the
underlying Markov Decision Process. Finally, we show how agents trained in
certain environments maintain performance in completely unseen settings and
also correlate performance degradation with floor plan geometry.
- Abstract(参考訳): 動的スケジューリングと資源管理の最近の技術は、高い時間分解能でタスクを整理・優先順位付けできるため、倉庫環境に応用されている。
深層強化学習の台頭は、学習パラダイムとして、分散エージェント集団が複雑な協調戦略を発見することを可能にした。
しかし,観察空間や行動空間が指数関数的に大きくなるにつれて,複数のエージェントの訓練は同時に多くの障害をもたらす。
本研究では,倉庫環境の様々な側面(フロアプランの複雑さ,エージェントの居住地に関する情報,タスクの並列性レベルなど)がパフォーマンスと実行優先度にどのように影響するかを実験的に定量化する。
そこで我々は,各エージェントが自己とタスク座標のみの知識を持ち,したがってマルコフ決定プロセスの部分的可観測性のみを有する,位置認識マルチエージェントシステムの状態と動作空間のコンパクトな表現を提案する。
最後に, ある環境で訓練されたエージェントが, 完全に見えない環境で性能を維持する方法を示し, フロアプラン形状と性能劣化の相関関係を示す。
関連論文リスト
- Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Optimal task and motion planning and execution for human-robot
multi-agent systems in dynamic environments [54.39292848359306]
本稿では,タスクのシーケンシング,割り当て,実行を最適化するタスクと動作計画の組み合わせを提案する。
このフレームワークはタスクとアクションの分離に依存しており、アクションはシンボル的タスクの幾何学的実現の可能な1つの可能性である。
ロボットアームと人間の作業員がモザイクを組み立てる共同製造シナリオにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-27T01:50:45Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Hierarchically Structured Scheduling and Execution of Tasks in a
Multi-Agent Environment [1.0660480034605238]
倉庫環境では、タスクが動的に出現するので、早すぎると労働力にマッチするタスク管理システムは、必ずしも最適ではない。
本稿では,高レベルスケジューリング問題と低レベルマルチエージェント問題の両方を解決するために,深層強化学習を提案する。
論文 参考訳(メタデータ) (2022-03-06T18:11:34Z) - Learning Efficient Multi-Agent Cooperative Visual Exploration [18.42493808094464]
複数のエージェントによる視覚的屋内探索の課題を考察し、エージェントはできるだけ少ないステップで屋内全領域を探索する必要がある。
我々は、最先端の単一エージェントRLソリューションであるActive Neural SLAM(ANS)を、新しいRLベースのグローバルゴールプランナーであるSpatial Coordination Planner(SCP)を導入してマルチエージェント設定に拡張する。
SCPは、各エージェントの空間情報をエンドツーエンドに活用し、探索効率の高い異なる空間目標に向けて効果的にエージェントを誘導する。
論文 参考訳(メタデータ) (2021-10-12T04:48:10Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。
我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。
提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文 参考訳(メタデータ) (2020-07-30T20:14:42Z) - Bottom-up mechanism and improved contract net protocol for the dynamic
task planning of heterogeneous Earth observation resources [61.75759893720484]
地球観測資源は、災害救助、被害評価、関連する領域においてますます不可欠になりつつある。
観測要求の変更や悪天候の発生、資源の失敗など、予測できない多くの要因は、スケジュールされた観測計画が実行不可能になる可能性がある。
不均質な地球観測資源の動的タスク計画を容易にするため、ボトムアップ分散協調フレームワークと改良された契約網を提案する。
論文 参考訳(メタデータ) (2020-07-13T03:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。