Fugu-MT 論文翻訳(概要): GOV-REK: Governed Reward Engineering Kernels for Designing Robust Multi-Agent Reinforcement Learning Systems

論文の概要: GOV-REK: Governed Reward Engineering Kernels for Designing Robust Multi-Agent Reinforcement Learning Systems

arxiv url: http://arxiv.org/abs/2404.01131v1
Date: Mon, 1 Apr 2024 14:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:15:37.732179
Title: GOV-REK: Governed Reward Engineering Kernels for Designing Robust Multi-Agent Reinforcement Learning Systems
Title（参考訳）: GOV-REK:ロバストなマルチエージェント強化学習システム設計のためのGoverned Reward Engineering Kernels
Authors: Ashish Rana, Michael Oesterle, Jannik Brinkmann,
Abstract要約: マルチエージェント強化学習システムにおけるエージェントに報酬分布を動的に割り当てるGOVerned Reward Engineering Kernels (GOV-REK)を提案する。我々はまた、意味のあるエージェント報酬分布を割り当てるために、状態または共同アクション空間の基盤構造を利用するガバナンスカーネルも導入する。我々の実験は、有意義な報奨が、異なるMARL問題を効果的に学習する学習プロセスを開始することを実証している。
参考スコア（独自算出の注目度）: 2.867517731896504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For multi-agent reinforcement learning systems (MARLS), the problem formulation generally involves investing massive reward engineering effort specific to a given problem. However, this effort often cannot be translated to other problems; worse, it gets wasted when system dynamics change drastically. This problem is further exacerbated in sparse reward scenarios, where a meaningful heuristic can assist in the policy convergence task. We propose GOVerned Reward Engineering Kernels (GOV-REK), which dynamically assign reward distributions to agents in MARLS during its learning stage. We also introduce governance kernels, which exploit the underlying structure in either state or joint action space for assigning meaningful agent reward distributions. During the agent learning stage, it iteratively explores different reward distribution configurations with a Hyperband-like algorithm to learn ideal agent reward models in a problem-agnostic manner. Our experiments demonstrate that our meaningful reward priors robustly jumpstart the learning process for effectively learning different MARL problems.
Abstract（参考訳）: マルチエージェント強化学習システム(MARLS)の場合、問題定式化は一般に、与えられた問題に特有の大規模な報酬工学的努力を投資する。しかし、この取り組みは、しばしば他の問題に変換できない。さらに悪いことに、システムのダイナミクスが劇的に変化すると、無駄になる。この問題は、意味のあるヒューリスティックが政策収束タスクを補助できるスパース報酬シナリオにおいてさらに悪化している。 GOVerned Reward Engineering Kernels (GOV-REK) を提案する。我々はまた、意味のあるエージェント報酬分布を割り当てるために、状態または共同アクション空間の基盤構造を利用するガバナンスカーネルも導入する。エージェント学習段階では、ハイパーバンドのようなアルゴリズムを用いて様々な報酬分布構成を反復的に探索し、理想的なエージェント報酬モデルを問題に依存しない方法で学習する。我々の実験は、有意義な報奨が、異なるMARL問題を効果的に学習する学習プロセスを開始することを実証している。

関連論文リスト

RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文参考訳（メタデータ） (2025-05-27T05:27:54Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Handling Sparse Rewards in Reinforcement Learning Using Model Predictive Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文参考訳（メタデータ） (2022-10-04T11:06:38Z)
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-06-12T04:09:39Z)
Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文参考訳（メタデータ） (2022-02-25T16:17:23Z)
Learning Long-Term Reward Redistribution via Randomized Return Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文参考訳（メタデータ） (2021-11-26T13:23:36Z)
Decentralized Multi-Agent Reinforcement Learning for Task Offloading Under Uncertainty [24.083871784808473]
MARL(Multi-Agent Reinforcement Learning)は、強化学習の課題である。タスクオフロード問題を解くために、ディープMARLアルゴリズムが適用されている。報奨信号の摂動は, 完全報奨学習と比較して, 性能の低下を招き得ることを示す。
論文参考訳（メタデータ） (2021-07-16T20:49:30Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Multi-Agent Reinforcement Learning for Problems with Combined Individual and Team Reward [0.0]
本稿では,新しい多エージェント強化学習フレームワークであるDecomposed Multi-Agent Deep Deterministic Policy Gradient (DE-MADDPG)を提案する。提案手法は,MADDPGアルゴリズムの直接適応よりもはるかに優れた,より安定した性能が得られることを示す。
論文参考訳（メタデータ） (2020-03-24T00:55:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。