Fugu-MT 論文翻訳(概要): ColorGrid: A Multi-Agent Non-Stationary Environment for Goal Inference and Assistance

論文の概要: ColorGrid: A Multi-Agent Non-Stationary Environment for Goal Inference and Assistance

arxiv url: http://arxiv.org/abs/2501.10593v1
Date: Fri, 17 Jan 2025 22:55:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.071072
Title: ColorGrid: A Multi-Agent Non-Stationary Environment for Goal Inference and Assistance
Title（参考訳）: ColorGrid: ゴール推論とアシストのためのマルチエージェント非定常環境
Authors: Andrey Risukhin, Kavel Rao, Ben Caffee, Alan Fan,
Abstract要約: 既存のマルチエージェント強化学習環境は、これらのエージェントの学習能力を厳格に評価するために必要な属性を欠いている。非定常性、非対称性、報酬構造をカスタマイズ可能な新しいMARL環境であるColorGridを紹介する。我々は、特に人間を代表するリーダーエージェントとフォロワーのアシスタントエージェントの同時的非定常的および非対称的目標において、ColorGridはIPPOによって未解決である、という広範囲な議論を通して見出した。
参考スコア（独自算出の注目度）: 0.2678472239880052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous agents' interactions with humans are increasingly focused on adapting to their changing preferences in order to improve assistance in real-world tasks. Effective agents must learn to accurately infer human goals, which are often hidden, to collaborate well. However, existing Multi-Agent Reinforcement Learning (MARL) environments lack the necessary attributes required to rigorously evaluate these agents' learning capabilities. To this end, we introduce ColorGrid, a novel MARL environment with customizable non-stationarity, asymmetry, and reward structure. We investigate the performance of Independent Proximal Policy Optimization (IPPO), a state-of-the-art (SOTA) MARL algorithm, in ColorGrid and find through extensive ablations that, particularly with simultaneous non-stationary and asymmetric goals between a ``leader'' agent representing a human and a ``follower'' assistant agent, ColorGrid is unsolved by IPPO. To support benchmarking future MARL algorithms, we release our environment code, model checkpoints, and trajectory visualizations at https://github.com/andreyrisukhin/ColorGrid.
Abstract（参考訳）: 自律エージェントと人間との相互作用は、現実のタスクにおける支援を改善するために、その好みの変化に適応することに集中している。効果的なエージェントは、しばしば隠れている人間の目標を正確に推測し、うまく協力し合わなければならない。しかし、既存のマルチエージェント強化学習(MARL)環境は、これらのエージェントの学習能力を厳格に評価するために必要な属性を欠いている。そこで本研究では,非定常性,非対称性,報酬構造をカスタマイズ可能な新しいMARL環境であるColorGridを紹介する。そこで我々は,Independent Proximal Policy Optimization (IPPO, State-of-the-art (SOTA) MARLアルゴリズム) のColorGridにおける性能について検討し,特に「リーダー」エージェントと「フォロワー」アシスタントエージェントの同時的非定常的・非対称的目標において,ColorGridはIPPOによって未解決であることを示す。将来のMARLアルゴリズムのベンチマークをサポートするため、私たちはhttps://github.com/andreyrisukhin/ColorGrid.comで環境コード、モデルチェックポイント、軌跡視覚化をリリースします。

関連論文リスト

Gradientsys: A Multi-Agent LLM Scheduler with ReAct Orchestration [4.66888457790348]
次世代マルチエージェントスケジューリングフレームワークであるGradientsysを紹介する。型付きモデルコンテキストプロトコル(MCP)とReActベースの動的計画ループを使用して、さまざまなAIエージェントを協調する。 GAIA General-Asistantベンチマークの実験によると、Gradientsysはレイテンシの低減とAPIコストの低減により、タスクの成功率の向上を実現している。
論文参考訳（メタデータ） (2025-07-09T03:40:56Z)
ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。 OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文参考訳（メタデータ） (2025-05-22T06:24:32Z)
Graph Based Deep Reinforcement Learning Aided by Transformers for Multi-Agent Cooperation [2.8169258551959544]
本稿では、グラフニューラルネットワーク(GNN)、深層強化学習(DRL)、マルチエージェント協調と集合タスク実行の強化のためのトランスフォーマーベースのメカニズムを統合する新しいフレームワークを提案する。提案手法はGNNを用いて,適応グラフ構築によるエージェントエージェントとエージェントゴールの相互作用をモデル化し,制約付き通信下での効率的な情報集約と意思決定を可能にする。
論文参考訳（メタデータ） (2025-04-11T01:46:18Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。 SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-05T03:02:57Z)
SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。 SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文参考訳（メタデータ） (2023-07-05T23:36:33Z)
Learning Control Admissibility Models with Graph Neural Networks for Multi-Agent Navigation [9.05607520128194]
制御適応モデル(CAM)は、任意の数のエージェントに対するオンライン推論のために簡単に構成され、使用することができる。 CAMモデルは少数のエージェントしか持たない環境で訓練でき、数百のエージェントで密集した環境に展開するために容易に構成でき、最先端の手法よりも優れた性能を実現することができる。
論文参考訳（メタデータ） (2022-10-17T19:20:58Z)
Learning to Coordinate in Multi-Agent Systems: A Coordinated Actor-Critic Algorithm and Finite-Time Guarantees [43.10380224532313]
本研究ではアクター・クリティカル(AC)アルゴリズムを用いて,自律エージェントによる協調行動の出現について検討する。本稿では、個別にパラメータ化されたポリシーが共有された部分とパーソナライズされた部分を持つコーディネートされたアクタ・クリティカル・アルゴリズム(CAC)のクラスを提案し、分析する。この研究は、部分的にパーソナライズされたポリシーを持つ分散ACアルゴリズムに対する最初の有限サンプル保証を提供する。
論文参考訳（メタデータ） (2021-10-11T20:26:16Z)
Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文参考訳（メタデータ） (2021-09-05T09:51:25Z)
Semantic Tracklets: An Object-Centric Representation for Visual Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文参考訳（メタデータ） (2021-08-06T22:19:09Z)
Multi-Agent Routing Value Iteration Network [88.38796921838203]
疎結合グラフの学習値に基づいてマルチエージェントルーティングを行うことができるグラフニューラルネットワークに基づくモデルを提案する。最大25ノードのグラフ上で2つのエージェントでトレーニングしたモデルでは,より多くのエージェントやノードを持つ状況に容易に一般化できることが示されている。
論文参考訳（メタデータ） (2020-07-09T22:16:45Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)
Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文参考訳（メタデータ） (2020-01-14T17:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。