Fugu-MT 論文翻訳(概要): Multicopy Reinforcement Learning Agents

論文の概要: Multicopy Reinforcement Learning Agents

arxiv url: http://arxiv.org/abs/2309.10908v2
Date: Mon, 6 May 2024 12:43:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 00:55:03.380821
Title: Multicopy Reinforcement Learning Agents
Title（参考訳）: マルチコピー強化学習エージェント
Authors: Alicia P. Wolfe, Oliver Diamond, Brigitte Goeler-Slough, Remi Feuerman, Magdalena Kisielinska, Victoria Manfredi,
Abstract要約: 本稿では,エージェントが同一のコピーを複数作成して,エージェントのタスクをより効率的に行うという,新しいタイプのマルチエージェント問題について検討する。本稿では,値関数の構造を活かしたマルチコピー問題の学習アルゴリズムを提案し,コピーを追加する際の利点とコストのバランスを効果的に学習する。
参考スコア（独自算出の注目度）: 0.23090185577016445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper examines a novel type of multi-agent problem, in which an agent makes multiple identical copies of itself in order to achieve a single agent task better or more efficiently. This strategy improves performance if the environment is noisy and the task is sometimes unachievable by a single agent copy. We propose a learning algorithm for this multicopy problem which takes advantage of the structure of the value function to efficiently learn how to balance the advantages and costs of adding additional copies.
Abstract（参考訳）: 本稿では,エージェントが同一のコピーを複数作成して,エージェントのタスクをより効率的に行うという,新しいタイプのマルチエージェント問題について検討する。この戦略は、環境が騒々しく、タスクが1つのエージェントコピーで達成できない場合、パフォーマンスを向上させる。本稿では,値関数の構造を活かしたマルチコピー問題の学習アルゴリズムを提案し,コピーを追加する際の利点とコストのバランスを効果的に学習する。

関連論文リスト

On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文参考訳（メタデータ） (2024-08-02T03:25:20Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
Decentralized scheduling through an adaptive, trading-based multi-agent system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文参考訳（メタデータ） (2022-07-05T13:50:18Z)
Recursive Reasoning Graph for Multi-Agent Reinforcement Learning [44.890087638530524]
マルチエージェント強化学習(MARL)は、複数のエージェントが相互に相互作用するポリシーを同時に学習する効率的な方法である。既存のアルゴリズムは、他のエージェントに対する自己行動の影響を正確に予測できない。提案アルゴリズムはRecursive Reasoning Graph (R2G)と呼ばれ、複数のマルチエージェント粒子およびロボットゲームにおける最先端の性能を示す。
論文参考訳（メタデータ） (2022-03-06T00:57:50Z)
Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。 PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文参考訳（メタデータ） (2021-12-23T17:48:04Z)
SA-MATD3:Self-attention-based multi-agent continuous control method in cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文参考訳（メタデータ） (2021-07-01T08:15:05Z)
Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。本研究では,近似的に同期する利点推定を提案する。
論文参考訳（メタデータ） (2020-12-07T07:29:19Z)
Scalable Multi-Agent Inverse Reinforcement Learning via Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-24T20:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。