Fugu-MT 論文翻訳(概要): Learning to Team-Based Navigation: A Review of Deep Reinforcement Learning Techniques for Multi-Agent Pathfinding

論文の概要: Learning to Team-Based Navigation: A Review of Deep Reinforcement Learning Techniques for Multi-Agent Pathfinding

arxiv url: http://arxiv.org/abs/2308.05893v1
Date: Fri, 11 Aug 2023 00:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 15:25:10.893943
Title: Learning to Team-Based Navigation: A Review of Deep Reinforcement Learning Techniques for Multi-Agent Pathfinding
Title（参考訳）: チームベースのナビゲーションへの学習:マルチエージェントパスフィニングのための深層強化学習手法のレビュー
Authors: Jaehoon Chung, Jamil Fayyad, Younes Al Younes, and Homayoun Najjaran
Abstract要約: 本稿では、MAPFにおけるDRLベースのアプローチの統合に焦点を当てる。我々は、MAPFソリューションの評価における現在のギャップを、統一的な評価指標の欠如に対処して埋めることを目的としている。本稿では,モデルベースDRLの将来的な方向性としての可能性について論じ,その基礎的理解を提供する。
参考スコア（独自算出の注目度）: 1.1339580074756188
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-agent pathfinding (MAPF) is a critical field in many large-scale robotic applications, often being the fundamental step in multi-agent systems. The increasing complexity of MAPF in complex and crowded environments, however, critically diminishes the effectiveness of existing solutions. In contrast to other studies that have either presented a general overview of the recent advancements in MAPF or extensively reviewed Deep Reinforcement Learning (DRL) within multi-agent system settings independently, our work presented in this review paper focuses on highlighting the integration of DRL-based approaches in MAPF. Moreover, we aim to bridge the current gap in evaluating MAPF solutions by addressing the lack of unified evaluation metrics and providing comprehensive clarification on these metrics. Finally, our paper discusses the potential of model-based DRL as a promising future direction and provides its required foundational understanding to address current challenges in MAPF. Our objective is to assist readers in gaining insight into the current research direction, providing unified metrics for comparing different MAPF algorithms and expanding their knowledge of model-based DRL to address the existing challenges in MAPF.
Abstract（参考訳）: マルチエージェントパスフィンディング(MAPF)は、多くの大規模ロボットアプリケーションにおいて重要な分野であり、しばしばマルチエージェントシステムの基本的なステップである。しかし、複雑で混み合った環境におけるMAPFの複雑さの増大は、既存のソリューションの有効性を著しく低下させる。 MAPFの最近の進歩を概観した研究や、マルチエージェントシステム設定におけるDeep Reinforcement Learning(DRL)を個別に検討した研究とは対照的に、本論文では、MAPFにおけるDRLベースのアプローチの統合を強調した。さらに、統合評価指標の欠如に対処し、これらの指標を包括的に解明することで、MAPFソリューションの評価における現在のギャップを埋めることを目指している。最後に,モデルベースDRLの将来的な方向性としての可能性について論じ,MAPFの課題に対処するために必要な基礎的理解を提供する。我々の目標は、読者が現在の研究の方向性を知るのを支援し、異なるMAPFアルゴリズムを比較し、MAPFの既存の課題に対処するためにモデルベースDRLの知識を拡大するための統一的なメトリクスを提供することである。

関連論文リスト

Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Advancing Learnable Multi-Agent Pathfinding Solvers with Active Fine-Tuning [46.35418789518417]
マルチエージェントパスフィンディング(MAPF)は、マルチロボット軌道計画問題の共通の抽象化である。本稿では,機械学習を活用した分散化サブ最適化MAPFソルバMAPF-GPT-DDGを紹介する。本実験は,MAPF-GPT-DDGが既存の学習型MAPF解法を超えることを示した。
論文参考訳（メタデータ） (2025-06-30T12:34:31Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本調査は,RLに基づく多モーダル大言語モデルの推論の最近の進歩を体系的にレビューする。我々は、RLの2つの主要なパラダイム、--value-free と value-based method を強調し、RLが推論能力をどのように強化するかを分析する。ベンチマークデータセット、評価プロトコル、既存の制限について概観する。
論文参考訳（メタデータ） (2025-04-30T03:14:28Z)
MARFT: Multi-Agent Reinforcement Fine-Tuning [26.527065316690123]
本稿では,MARFT(Multi-Agent Reinforcement Fine-Tuning)の総合的研究について述べる。 MARFTはマルチエージェント強化ファインチューニング(LaMAS)と呼ばれるパラダイムである我々は,LaMASに適した普遍的アルゴリズムフレームワークを導入し,概念的基礎,重要な特徴,実践的実装戦略について概説する。
論文参考訳（メタデータ） (2025-04-21T07:03:54Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
SIGMA: Sheaf-Informed Geometric Multi-Agent Pathfinding [4.801673346687721]
MAPF(Multi-Agent Path Finding)問題は、既知の、潜在的に障害物のある環境において、複数のエージェントに対して最も短く、衝突のない経路を決定することを目的としている。本稿では,分散化された深層強化学習にせん断理論を適用し,エージェント同士の幾何学的相互依存性を学習できるようにする新しい枠組みを提案する。特に,ニューラルネットワークを組み込んで,せん断理論に基づく潜在空間のコンセンサスを概ねモデル化し,自己教師型学習を通じて学習する。
論文参考訳（メタデータ） (2025-02-10T13:17:34Z)
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。 MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文参考訳（メタデータ） (2025-02-07T12:18:20Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文参考訳（メタデータ） (2024-09-21T15:22:26Z)
MAPF-GPT: Imitation Learning for Multi-Agent Pathfinding at Scale [46.35418789518417]
マルチエージェントパスフィンディング(Multi-agent pathfinding)は、共有環境における複数のエージェントの衝突のないパスを見つけることを必要とする、難しい計算問題である。我々はMAPF-GPTと呼ばれるMAPF問題の基盤モデルを構築した。擬似学習を用いて、部分観測可能性の条件下での行動を生成するための準最適専門家軌道のセットに関する政策を訓練した。 MAPF-GPTは、様々な問題インスタンスにおいて、現在最も優れた学習可能なMAPF解法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-08-29T12:55:10Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
The Multi-Agent Pickup and Delivery Problem: MAPF, MARL and Its Warehouse Applications [2.969705152497174]
マルチエージェントピックアップおよび配送問題に対する2つの最先端ソリューションを,異なる原理に基づいて検討した。具体的には、コンフリクトベースサーチ(CBS)と呼ばれるMAPFアルゴリズムと、共有経験アクター批判(SEAC)と呼ばれる現在のMARLアルゴリズムについて検討する。
論文参考訳（メタデータ） (2022-03-14T13:23:35Z)
Compilation-based Solvers for Multi-Agent Path Finding: a Survey, Discussion, and Future Opportunities [7.766921168069532]
このトピックの過去の発展と現在の傾向から学んだ教訓を示し、その広範な影響について議論します。最適MAPF解決のための2つの主要なアプローチは、(1)MAPFを直接解決する専用の検索ベース手法、(2)MAPFインスタンスを異なる確立された形式でインスタンスに還元するコンパイルベース手法である。
論文参考訳（メタデータ） (2021-04-23T20:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。