Fugu-MT 論文翻訳(概要): Multi-Agent Path Finding via Tree LSTM

論文の概要: Multi-Agent Path Finding via Tree LSTM

arxiv url: http://arxiv.org/abs/2210.12933v1
Date: Mon, 24 Oct 2022 03:22:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 15:14:59.352525
Title: Multi-Agent Path Finding via Tree LSTM
Title（参考訳）: 木LSTMによるマルチエージェント経路探索
Authors: Yuhao Jiang, Kunjie Zhang, Qimai Li, Jiaxin Chen, Xiaolong Zhu
Abstract要約: 2021年のFlatland3 Challengeでは、MAPFのコンペティションにおいて、最良のRL法は27.9点に過ぎず、最高のOR法よりもはるかに少なかった。本稿では,Flatland3 Challengeに対する新しいRLソリューションを提案する。
参考スコア（独自算出の注目度）: 17.938710696964662
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, Multi-Agent Path Finding (MAPF) has attracted attention from the fields of both Operations Research (OR) and Reinforcement Learning (RL). However, in the 2021 Flatland3 Challenge, a competition on MAPF, the best RL method scored only 27.9, far less than the best OR method. This paper proposes a new RL solution to Flatland3 Challenge, which scores 125.3, several times higher than the best RL solution before. We creatively apply a novel network architecture, TreeLSTM, to MAPF in our solution. Together with several other RL techniques, including reward shaping, multiple-phase training, and centralized control, our solution is comparable to the top 2-3 OR methods.
Abstract（参考訳）: 近年,Multi-Agent Path Finding (MAPF) が運用研究 (OR) と強化学習 (RL) の両方の分野から注目を集めている。しかし、2021年のFlatland3 ChallengeではMAPFの競争で、最良のRL法は27.9点に過ぎず、最高のOR法よりもはるかに少なかった。本稿では,これまで最も優れたrlソリューションである125.3を数倍高く評価したflatland3 challengeに対する新しいrlソリューションを提案する。我々はMAPFに新しいネットワークアーキテクチャ、TreeLSTMを創造的に適用する。報酬形成,多相学習,集中制御など,他のRL技術とともに,我々のソリューションは上位2-3OR手法に匹敵するものである。

関連論文リスト

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文参考訳（メタデータ） (2025-02-10T18:52:04Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Scaling Lifelong Multi-Agent Path Finding to More Realistic Settings: Research Challenges and Opportunities [44.292720085661585]
我々は2023年のLMAPFコンペティションに勝利のアプローチを提示する。最初の課題は、限られた計画時間内で高品質なLMAPFソリューションを探すことである。第2の課題は、LMAPFアルゴリズムにおける筋萎縮と行動の影響を緩和することである。第3の課題は、文学と現実世界の応用で使用されるLMAPFモデルのギャップを埋めることである。
論文参考訳（メタデータ） (2024-04-24T19:37:18Z)
An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems [19.443149691831856]
Multi-Task Fusion (MTF) は、Multi-Task Learning (MTL) が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化する。近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。本稿では,大規模RSにおいてMSF用にカスタマイズされたIntegratedRL-MTFを提案する。
論文参考訳（メタデータ） (2024-04-19T08:43:03Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Retrospective on the 2021 BASALT Competition on Learning from Human Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。 LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-04-14T17:24:54Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)
Active Finite Reward Automaton Inference and Reinforcement Learning Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-28T21:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。