Fugu-MT 論文翻訳(概要): Learning Control Admissibility Models with Graph Neural Networks for Multi-Agent Navigation

論文の概要: Learning Control Admissibility Models with Graph Neural Networks for Multi-Agent Navigation

arxiv url: http://arxiv.org/abs/2210.09378v1
Date: Mon, 17 Oct 2022 19:20:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 15:32:41.106820
Title: Learning Control Admissibility Models with Graph Neural Networks for Multi-Agent Navigation
Title（参考訳）: グラフニューラルネットワークを用いたマルチエージェントナビゲーションのための学習制御許容度モデル
Authors: Chenning Yu, Hongzhan Yu and Sicun Gao
Abstract要約: 制御適応モデル(CAM)は、任意の数のエージェントに対するオンライン推論のために簡単に構成され、使用することができる。 CAMモデルは少数のエージェントしか持たない環境で訓練でき、数百のエージェントで密集した環境に展開するために容易に構成でき、最先端の手法よりも優れた性能を実現することができる。
参考スコア（独自算出の注目度）: 9.05607520128194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning in continuous domains focuses on learning control policies that map states to distributions over actions that ideally concentrate on the optimal choices in each step. In multi-agent navigation problems, the optimal actions depend heavily on the agents' density. Their interaction patterns grow exponentially with respect to such density, making it hard for learning-based methods to generalize. We propose to switch the learning objectives from predicting the optimal actions to predicting sets of admissible actions, which we call control admissibility models (CAMs), such that they can be easily composed and used for online inference for an arbitrary number of agents. We design CAMs using graph neural networks and develop training methods that optimize the CAMs in the standard model-free setting, with the additional benefit of eliminating the need for reward engineering typically required to balance collision avoidance and goal-reaching requirements. We evaluate the proposed approach in multi-agent navigation environments. We show that the CAM models can be trained in environments with only a few agents and be easily composed for deployment in dense environments with hundreds of agents, achieving better performance than state-of-the-art methods.
Abstract（参考訳）: 継続的ドメインにおける深い強化学習は、各ステップにおける最適な選択に理想的に集中するアクション上の状態と分布をマッピングする学習制御ポリシーに焦点を当てる。多エージェントナビゲーション問題では、最適な動作はエージェントの密度に大きく依存する。これらの相互作用パターンは、そのような密度に関して指数関数的に成長し、学習に基づく手法の一般化が困難になる。そこで本研究では,学習目標を最適行動の予測から許容行動のセットの予測に切り替える手法を提案し,制御許容性モデル (cams) と呼ぶ。我々は,グラフニューラルネットワークを用いてCAMを設計し,標準モデルフリー設定でCAMを最適化するトレーニング手法を開発した。マルチエージェントナビゲーション環境における提案手法の評価を行った。 CAMモデルは少数のエージェントしか持たない環境で訓練でき、数百のエージェントで密集した環境に展開するために容易に構成でき、最先端の手法よりも優れた性能を実現することができる。

関連論文リスト

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Meta-Sparsity: Learning Optimal Sparse Structures in Multi-task Networks through Meta-learning [4.462334751640166]
Meta-sparsityは、ディープニューラルネットワーク(DNN)がマルチタスク学習環境で最適なスパース共有構造を生成することを可能にする、モデルのスパーシティを学習するためのフレームワークである。 Model Agnostic Meta-Learning (MAML)に触発され、マルチタスクシナリオにおける共有パラメータと最適なスパースパラメータの学習に重点を置いている。メタスパーシティーの有効性は、2つのデータセットに対する広範な実験によって厳格に評価されている。
論文参考訳（メタデータ） (2025-01-21T13:25:32Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
M$^{2}$M: Learning controllable Multi of experts and multi-scale operators are the Partial Differential Equations need [43.534771810528305]
本稿では,PDEを効率的にシミュレートし,学習するためのマルチスケール・マルチエキスパート(M$2$M)ニューラル演算子のフレームワークを提案する。我々は、動的ルータポリシーのために、マルチエキスパートゲートネットワークをトレーニングするために、分断方式を採用する。提案手法は,専門家の選択権を決定する制御可能な事前ゲーティング機構を組み込んで,モデルの効率を向上させる。
論文参考訳（メタデータ） (2024-10-01T15:42:09Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。 PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文参考訳（メタデータ） (2022-08-16T19:23:02Z)
Fully Decentralized Model-based Policy Optimization for Networked Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文参考訳（メタデータ） (2022-07-13T23:52:14Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-11T13:25:13Z)
Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm [0.0]
我々は,マルチエージェント衝突回避問題のための新しいフレームワークを開発する。このフレームワークは、従来のパスフィニングアルゴリズムと強化学習を組み合わせたものだ。我々のアプローチでは、エージェントはナビゲートするか、パートナーを避けるために簡単な行動をとるかを学ぶ。
論文参考訳（メタデータ） (2020-12-05T08:56:58Z)
MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文参考訳（メタデータ） (2020-07-30T20:14:42Z)
Model-based Reinforcement Learning for Decentralized Multiagent Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文参考訳（メタデータ） (2020-03-15T19:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。