Fugu-MT 論文翻訳(概要): High Performance Simulation for Scalable Multi-Agent Reinforcement Learning

論文の概要: High Performance Simulation for Scalable Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2207.03945v1
Date: Fri, 8 Jul 2022 14:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-11 14:53:30.511619
Title: High Performance Simulation for Scalable Multi-Agent Reinforcement Learning
Title（参考訳）: スケーラブルなマルチエージェント強化学習のための高性能シミュレーション
Authors: Jordan Langham-Lopez, Sebastian M. Schmon, Patrick Cannon
Abstract要約: 高性能エージェントベースモデル(ABM)フレームワークであるVogueの使用を実演する。 Vogueはマルチエージェントのトレーニング環境として機能し、数千から数万の対話エージェントをサポートする。これらの環境は、時間スケールの分と時間で共有RLポリシーを訓練できることを示す。
参考スコア（独自算出の注目度）: 1.675857332621569
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent reinforcement learning experiments and open-source training environments are typically limited in scale, supporting tens or sometimes up to hundreds of interacting agents. In this paper we demonstrate the use of Vogue, a high performance agent based model (ABM) framework. Vogue serves as a multi-agent training environment, supporting thousands to tens of thousands of interacting agents while maintaining high training throughput by running both the environment and reinforcement learning (RL) agents on the GPU. High performance multi-agent environments at this scale have the potential to enable the learning of robust and flexible policies for use in ABMs and simulations of complex systems. We demonstrate training performance with two newly developed, large scale multi-agent training environments. Moreover, we show that these environments can train shared RL policies on time-scales of minutes and hours.
Abstract（参考訳）: マルチエージェント強化学習実験とオープンソースのトレーニング環境は通常、スケールで制限され、数十、時には数百の対話エージェントをサポートする。本稿では,高性能エージェントベースモデル(ABM)フレームワークであるVogueの使用例を示す。 Vogueはマルチエージェントのトレーニング環境として機能し、数千から数万の対話エージェントをサポートしながら、GPU上で環境と強化学習エージェントの両方を実行することで、高いトレーニングスループットを維持する。この規模の高性能マルチエージェント環境は、ABMや複雑なシステムのシミュレーションで使用する堅牢で柔軟なポリシーの学習を可能にする可能性がある。新たに開発した2つの大規模マルチエージェントトレーニング環境を用いて,トレーニング性能を示す。さらに、これらの環境は、時間帯の時間帯で共有RLポリシーを訓練できることを示す。

関連論文リスト

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文参考訳（メタデータ） (2026-02-10T18:55:41Z)
MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2) 本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文参考訳（メタデータ） (2026-02-08T07:28:44Z)
TongSIM: A General Platform for Simulating Intelligent Machines [59.27575233453533]
エボディード・インテリジェンス(Embodied Intelligence)は、現実的なシミュレートされた環境における訓練エージェントに焦点を当てる。 TongSIMは、エンボディエージェントのトレーニングと評価のための高忠実で汎用的なプラットフォームである。
論文参考訳（メタデータ） (2025-12-23T10:00:43Z)
A Framework for Scalable Heterogeneous Multi-Agent Adversarial Reinforcement Learning in IsaacLab [1.5749416770494706]
マルチエージェント強化学習(MARL)は、動的環境下で協調するロボットシステムの中心である。我々はIsaacLabフレームワークを拡張し、高忠実度物理シミュレーションにおける敵ポリシーのスケーラブルなトレーニングを支援する。
論文参考訳（メタデータ） (2025-09-26T03:16:48Z)
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文参考訳（メタデータ） (2025-09-10T16:46:11Z)
How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文参考訳（メタデータ） (2025-07-11T18:34:07Z)
ActionStudio: A Lightweight Framework for Data and Training of Large Action Models [88.90834854360641]
ActionStudioは、大規模アクションモデル用に設計された軽量でスケーラブルなデータおよびトレーニングフレームワークである。トレーニングされたモデルでは、公開および現実的なエージェントベンチマークで最高のパフォーマンスが得られます。我々はActionStudioフレームワークをオープンソース化し、98kの高品質なトラジェクトリをキュレートしたデータセットであるActionStudio-98kをリリースする。
論文参考訳（メタデータ） (2025-03-28T17:58:33Z)
LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。 LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。 LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文参考訳（メタデータ） (2024-12-12T12:47:09Z)
Very Large-Scale Multi-Agent Simulation in AgentScope [112.98986800070581]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。また、多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースも提供します。
論文参考訳（メタデータ） (2024-07-25T05:50:46Z)
Contrastive learning-based agent modeling for deep reinforcement learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。 CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文参考訳（メタデータ） (2023-12-30T03:44:12Z)
DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文参考訳（メタデータ） (2023-12-08T16:51:10Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文参考訳（メタデータ） (2023-05-22T13:33:37Z)
Efficient Distributed Framework for Collaborative Multi-Agent Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文参考訳（メタデータ） (2022-05-11T03:12:49Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)
SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。 SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文参考訳（メタデータ） (2020-10-19T18:26:10Z)
MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文参考訳（メタデータ） (2020-07-30T20:14:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。