論文の概要: Reward Design in Cooperative Multi-agent Reinforcement Learning for
Packet Routing
- arxiv url: http://arxiv.org/abs/2003.03433v1
- Date: Thu, 5 Mar 2020 02:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:28:53.090469
- Title: Reward Design in Cooperative Multi-agent Reinforcement Learning for
Packet Routing
- Title(参考訳): パケットルーティングのための協調型マルチエージェント強化学習における報酬設計
- Authors: Hangyu Mao, Zhibo Gong, and Zhen Xiao
- Abstract要約: パケットルーティング環境に基づく協調型マルチエージェント強化学習(MARL)における報酬設計問題について検討する。
上述の2つの報奨信号が準最適ポリシーを生成する傾向にあることを示す。
我々は、より良いポリシーを学ぶために、既成の報酬信号の混合を設計する。
- 参考スコア(独自算出の注目度): 8.021402935358488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative multi-agent reinforcement learning (MARL), how to design a
suitable reward signal to accelerate learning and stabilize convergence is a
critical problem. The global reward signal assigns the same global reward to
all agents without distinguishing their contributions, while the local reward
signal provides different local rewards to each agent based solely on
individual behavior. Both of the two reward assignment approaches have some
shortcomings: the former might encourage lazy agents, while the latter might
produce selfish agents.
In this paper, we study reward design problem in cooperative MARL based on
packet routing environments. Firstly, we show that the above two reward signals
are prone to produce suboptimal policies. Then, inspired by some observations
and considerations, we design some mixed reward signals, which are
off-the-shelf to learn better policies. Finally, we turn the mixed reward
signals into the adaptive counterparts, which achieve best results in our
experiments. Other reward signals are also discussed in this paper. As reward
design is a very fundamental problem in RL and especially in MARL, we hope that
MARL researchers can rethink the rewards used in their systems.
- Abstract(参考訳): 協調型マルチエージェント強化学習(marl)では,学習の促進と収束の安定化のために適切な報酬信号の設計が重要な課題である。
グローバル報酬信号は、貢献を区別することなく、すべてのエージェントに同じグローバル報酬を割り当て、一方、ローカル報酬信号は個々の行動のみに基づいて各エージェントに異なるローカル報酬を提供する。
前者は怠け者のエージェントを奨励するかもしれないし、後者は利己的なエージェントを生み出すかもしれない。
本稿では,パケットルーティング環境に基づく協調型MARLにおける報酬設計問題について検討する。
まず、上記の2つの報酬信号が最適以下のポリシーを生成する傾向があることを示す。
そして、いくつかの観察と考察に触発されて、より優れたポリシーを学ぶために、既成の報奨信号の混合を設計する。
最後に,混合報酬信号を適応信号に変換し,実験の最良の結果を得る。
その他の報奨信号についても述べる。
報酬デザインは、RL、特にMARLにおいて非常に基本的な問題であるため、MARLの研究者がシステムで使われる報酬を再考できることを願っている。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards [34.636688162807836]
VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。
我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。
ノイズを緩和する新しい報奨関数であるBiMIを導入する。
論文 参考訳(メタデータ) (2024-09-24T09:45:20Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Agent-Temporal Attention for Reward Redistribution in Episodic
Multi-Agent Reinforcement Learning [9.084006156825632]
本稿では,報酬の時間的再分配を学習し,報酬信号の高密度化を実現する手法の開発に焦点をあてる。
本稿では,これら2つの課題に対処するために,エピソード型マルチエージェント強化学習(AREL)におけるリワード再分配のためのエージェント・テンポラル・アテンションを紹介する。
ARELは、現在最先端の3つの報酬再分配方法と比較して、Particle Worldの報酬が増加し、StarCraftの勝利率が向上した。
論文 参考訳(メタデータ) (2022-01-12T18:35:46Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。