論文の概要: Multi-Agent Path Finding via Tree LSTM
- arxiv url: http://arxiv.org/abs/2210.12933v1
- Date: Mon, 24 Oct 2022 03:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:14:59.352525
- Title: Multi-Agent Path Finding via Tree LSTM
- Title(参考訳): 木LSTMによるマルチエージェント経路探索
- Authors: Yuhao Jiang, Kunjie Zhang, Qimai Li, Jiaxin Chen, Xiaolong Zhu
- Abstract要約: 2021年のFlatland3 Challengeでは、MAPFのコンペティションにおいて、最良のRL法は27.9点に過ぎず、最高のOR法よりもはるかに少なかった。
本稿では,Flatland3 Challengeに対する新しいRLソリューションを提案する。
- 参考スコア(独自算出の注目度): 17.938710696964662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Multi-Agent Path Finding (MAPF) has attracted attention from
the fields of both Operations Research (OR) and Reinforcement Learning (RL).
However, in the 2021 Flatland3 Challenge, a competition on MAPF, the best RL
method scored only 27.9, far less than the best OR method. This paper proposes
a new RL solution to Flatland3 Challenge, which scores 125.3, several times
higher than the best RL solution before. We creatively apply a novel network
architecture, TreeLSTM, to MAPF in our solution. Together with several other RL
techniques, including reward shaping, multiple-phase training, and centralized
control, our solution is comparable to the top 2-3 OR methods.
- Abstract(参考訳): 近年,Multi-Agent Path Finding (MAPF) が運用研究 (OR) と強化学習 (RL) の両方の分野から注目を集めている。
しかし、2021年のFlatland3 ChallengeではMAPFの競争で、最良のRL法は27.9点に過ぎず、最高のOR法よりもはるかに少なかった。
本稿では,これまで最も優れたrlソリューションである125.3を数倍高く評価したflatland3 challengeに対する新しいrlソリューションを提案する。
我々はMAPFに新しいネットワークアーキテクチャ、TreeLSTMを創造的に適用する。
報酬形成,多相学習,集中制御など,他のRL技術とともに,我々のソリューションは上位2-3OR手法に匹敵するものである。
関連論文リスト
- On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - An Offline Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems [19.443149691831856]
Multi-Task Fusion (MTF) は、Multi-Task Learning (MTL) が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化する。
近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。
統合RL-MTFは、オフラインRLモデルとオンライン探索ポリシーを統合し、制約を緩和し、複雑な制約を緩和します。
論文 参考訳(メタデータ) (2024-04-19T08:43:03Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。