論文の概要: Learning Team-Based Navigation: A Review of Deep Reinforcement Learning
Techniques for Multi-Agent Pathfinding
- arxiv url: http://arxiv.org/abs/2308.05893v2
- Date: Thu, 8 Feb 2024 18:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 19:39:08.417838
- Title: Learning Team-Based Navigation: A Review of Deep Reinforcement Learning
Techniques for Multi-Agent Pathfinding
- Title(参考訳): チームベースナビゲーションの学習:マルチエージェントパスフィニングのための深層強化学習手法のレビュー
- Authors: Jaehoon Chung, Jamil Fayyad, Younes Al Younes, and Homayoun Najjaran
- Abstract要約: 本稿では、MAPFにおけるDRLベースのアプローチの統合に焦点を当てる。
我々は、MAPFソリューションの評価における現在のギャップを、統一的な評価指標の欠如に対処して埋めることを目的としている。
本稿では,モデルベースDRLの将来的な方向性としての可能性について論じ,その基礎的理解を提供する。
- 参考スコア(独自算出の注目度): 2.7898966850590625
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-agent pathfinding (MAPF) is a critical field in many large-scale
robotic applications, often being the fundamental step in multi-agent systems.
The increasing complexity of MAPF in complex and crowded environments, however,
critically diminishes the effectiveness of existing solutions. In contrast to
other studies that have either presented a general overview of the recent
advancements in MAPF or extensively reviewed Deep Reinforcement Learning (DRL)
within multi-agent system settings independently, our work presented in this
review paper focuses on highlighting the integration of DRL-based approaches in
MAPF. Moreover, we aim to bridge the current gap in evaluating MAPF solutions
by addressing the lack of unified evaluation metrics and providing
comprehensive clarification on these metrics. Finally, our paper discusses the
potential of model-based DRL as a promising future direction and provides its
required foundational understanding to address current challenges in MAPF. Our
objective is to assist readers in gaining insight into the current research
direction, providing unified metrics for comparing different MAPF algorithms
and expanding their knowledge of model-based DRL to address the existing
challenges in MAPF.
- Abstract(参考訳): マルチエージェントパスフィンディング(MAPF)は、多くの大規模ロボットアプリケーションにおいて重要な分野であり、しばしばマルチエージェントシステムの基本的なステップである。
しかし、複雑で混み合った環境におけるMAPFの複雑さの増大は、既存のソリューションの有効性を著しく低下させる。
MAPFの最近の進歩を概観した研究や、マルチエージェントシステム設定におけるDeep Reinforcement Learning(DRL)を個別に検討した研究とは対照的に、本論文では、MAPFにおけるDRLベースのアプローチの統合を強調した。
さらに、統合評価指標の欠如に対処し、これらの指標を包括的に解明することで、MAPFソリューションの評価における現在のギャップを埋めることを目指している。
最後に,モデルベースDRLの将来的な方向性としての可能性について論じ,MAPFの課題に対処するために必要な基礎的理解を提供する。
我々の目標は、読者が現在の研究の方向性を知るのを支援し、異なるMAPFアルゴリズムを比較し、MAPFの既存の課題に対処するためにモデルベースDRLの知識を拡大するための統一的なメトリクスを提供することである。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - MAPF-GPT: Imitation Learning for Multi-Agent Pathfinding at Scale [46.35418789518417]
マルチエージェントパスフィンディング(Multi-agent pathfinding)は、共有環境における複数のエージェントの衝突のないパスを見つけることを必要とする、難しい計算問題である。
我々はMAPF-GPTと呼ばれるMAPF問題の基盤モデルを構築した。
擬似学習を用いて、部分観測可能性の条件下での行動を生成するための準最適専門家軌道のセットに関する政策を訓練した。
MAPF-GPTは、様々な問題インスタンスにおいて、現在最も優れた学習可能なMAPF解法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-29T12:55:10Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - The Multi-Agent Pickup and Delivery Problem: MAPF, MARL and Its
Warehouse Applications [2.969705152497174]
マルチエージェントピックアップおよび配送問題に対する2つの最先端ソリューションを,異なる原理に基づいて検討した。
具体的には、コンフリクトベースサーチ(CBS)と呼ばれるMAPFアルゴリズムと、共有経験アクター批判(SEAC)と呼ばれる現在のMARLアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-03-14T13:23:35Z) - Compilation-based Solvers for Multi-Agent Path Finding: a Survey,
Discussion, and Future Opportunities [7.766921168069532]
このトピックの過去の発展と現在の傾向から学んだ教訓を示し、その広範な影響について議論します。
最適MAPF解決のための2つの主要なアプローチは、(1)MAPFを直接解決する専用の検索ベース手法、(2)MAPFインスタンスを異なる確立された形式でインスタンスに還元するコンパイルベース手法である。
論文 参考訳(メタデータ) (2021-04-23T20:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。