論文の概要: Multi-Agent Path Finding via Tree LSTM
- arxiv url: http://arxiv.org/abs/2210.12933v1
- Date: Mon, 24 Oct 2022 03:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:14:59.352525
- Title: Multi-Agent Path Finding via Tree LSTM
- Title(参考訳): 木LSTMによるマルチエージェント経路探索
- Authors: Yuhao Jiang, Kunjie Zhang, Qimai Li, Jiaxin Chen, Xiaolong Zhu
- Abstract要約: 2021年のFlatland3 Challengeでは、MAPFのコンペティションにおいて、最良のRL法は27.9点に過ぎず、最高のOR法よりもはるかに少なかった。
本稿では,Flatland3 Challengeに対する新しいRLソリューションを提案する。
- 参考スコア(独自算出の注目度): 17.938710696964662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Multi-Agent Path Finding (MAPF) has attracted attention from
the fields of both Operations Research (OR) and Reinforcement Learning (RL).
However, in the 2021 Flatland3 Challenge, a competition on MAPF, the best RL
method scored only 27.9, far less than the best OR method. This paper proposes
a new RL solution to Flatland3 Challenge, which scores 125.3, several times
higher than the best RL solution before. We creatively apply a novel network
architecture, TreeLSTM, to MAPF in our solution. Together with several other RL
techniques, including reward shaping, multiple-phase training, and centralized
control, our solution is comparable to the top 2-3 OR methods.
- Abstract(参考訳): 近年,Multi-Agent Path Finding (MAPF) が運用研究 (OR) と強化学習 (RL) の両方の分野から注目を集めている。
しかし、2021年のFlatland3 ChallengeではMAPFの競争で、最良のRL法は27.9点に過ぎず、最高のOR法よりもはるかに少なかった。
本稿では,これまで最も優れたrlソリューションである125.3を数倍高く評価したflatland3 challengeに対する新しいrlソリューションを提案する。
我々はMAPFに新しいネットワークアーキテクチャ、TreeLSTMを創造的に適用する。
報酬形成,多相学習,集中制御など,他のRL技術とともに,我々のソリューションは上位2-3OR手法に匹敵するものである。
関連論文リスト
- Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - To the Max: Reinventing Reward in Reinforcement Learning [2.2351341583041466]
強化学習(RL)では、異なる報酬が同じ最適ポリシーを定義することができるが、結果として学習性能は大きく異なる。
エージェントは累積報酬よりも最大値を最適化する。
実験では,Gymnasium-Roboticsの2つの目標到達環境における最大回帰RLアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-02-02T12:29:18Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。