論文の概要: Vehicle management in a modular production context using Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2205.03294v1
- Date: Fri, 6 May 2022 15:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 12:41:05.521558
- Title: Vehicle management in a modular production context using Deep Q-Learning
- Title(参考訳): 深層q-learningを用いたモジュラー生産コンテキストにおける車両管理
- Authors: Lucain Pouget, Timo Hasenbichler, Jakob Auer, Klaus Lichtenegger,
Andreas Windisch
- Abstract要約: 本稿では,Deep-Qに基づく深層強化学習エージェントのジョブショップスケジューリング問題への適用可能性について検討する。
Deep-Qベースのエージェントはベースラインと同等のパフォーマンスを示す。
以上の結果から, DRL剤は従来の手法と比較して, ノイズに対する堅牢性が高くなったことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the feasibility of deploying Deep-Q based deep reinforcement
learning agents to job-shop scheduling problems in the context of modular
production facilities, using discrete event simulations for the environment.
These environments are comprised of a source and sink for the parts to be
processed, as well as (several) workstations. The agents are trained to
schedule automated guided vehicles to transport the parts back and forth
between those stations in an optimal fashion. Starting from a very simplistic
setup, we increase the complexity of the environment and compare the agents'
performances with well established heuristic approaches, such as
first-in-first-out based agents, cost tables and a nearest-neighbor approach.
We furthermore seek particular configurations of the environments in which the
heuristic approaches struggle, to investigate to what degree the Deep-Q agents
are affected by these challenges. We find that Deep-Q based agents show
comparable performance as the heuristic baselines. Furthermore, our findings
suggest that the DRL agents exhibit an increased robustness to noise, as
compared to the conventional approaches. Overall, we find that DRL agents
constitute a valuable approach for this type of scheduling problems.
- Abstract(参考訳): 本研究では,分散イベントシミュレーションを用いて,モジュール型生産施設におけるジョブショップスケジューリング問題に対するdeep-qベースの深層強化学習エージェントの適用可能性について検討する。
これらの環境は、処理対象の部品と(複数の)ワークステーションのソースとシンクで構成されています。
エージェントは、これらのステーションを行き来する部品を最適な方法で輸送するために、自動誘導車両のスケジュールを訓練される。
非常に単純な設定から始めて、環境の複雑さを高め、エージェントのパフォーマンスを、ファーストインファーストベースのエージェント、コストテーブル、近距離-neighborアプローチといった、確立されたヒューリスティックなアプローチと比較します。
さらに、ヒューリスティックアプローチが苦労する環境の特定の構成を求め、Deep-Qエージェントがこれらの課題にどの程度影響するかを調査する。
Deep-Qベースのエージェントはヒューリスティックベースラインと同等の性能を示す。
さらに, 従来の手法と比較して, DRL剤の騒音に対する堅牢性は高いことが示唆された。
全体として、DRLエージェントはこの種のスケジューリング問題に対して貴重なアプローチであることがわかった。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - Reinforcement Learning with Temporal-Logic-Based Causal Diagrams [25.538860320318943]
エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。
これらの機械は報酬関数をモデル化するが、環境に関する因果的知識を見落としてしまうことが多い。
環境の異なる特性間の時間的因果関係をキャプチャする,時間論理に基づく因果関係図(TL-CD)をRLで提案する。
論文 参考訳(メタデータ) (2023-06-23T18:42:27Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。