論文の概要: Reward Design in Cooperative Multi-agent Reinforcement Learning for
Packet Routing
- arxiv url: http://arxiv.org/abs/2003.03433v1
- Date: Thu, 5 Mar 2020 02:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:28:53.090469
- Title: Reward Design in Cooperative Multi-agent Reinforcement Learning for
Packet Routing
- Title(参考訳): パケットルーティングのための協調型マルチエージェント強化学習における報酬設計
- Authors: Hangyu Mao, Zhibo Gong, and Zhen Xiao
- Abstract要約: パケットルーティング環境に基づく協調型マルチエージェント強化学習(MARL)における報酬設計問題について検討する。
上述の2つの報奨信号が準最適ポリシーを生成する傾向にあることを示す。
我々は、より良いポリシーを学ぶために、既成の報酬信号の混合を設計する。
- 参考スコア(独自算出の注目度): 8.021402935358488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative multi-agent reinforcement learning (MARL), how to design a
suitable reward signal to accelerate learning and stabilize convergence is a
critical problem. The global reward signal assigns the same global reward to
all agents without distinguishing their contributions, while the local reward
signal provides different local rewards to each agent based solely on
individual behavior. Both of the two reward assignment approaches have some
shortcomings: the former might encourage lazy agents, while the latter might
produce selfish agents.
In this paper, we study reward design problem in cooperative MARL based on
packet routing environments. Firstly, we show that the above two reward signals
are prone to produce suboptimal policies. Then, inspired by some observations
and considerations, we design some mixed reward signals, which are
off-the-shelf to learn better policies. Finally, we turn the mixed reward
signals into the adaptive counterparts, which achieve best results in our
experiments. Other reward signals are also discussed in this paper. As reward
design is a very fundamental problem in RL and especially in MARL, we hope that
MARL researchers can rethink the rewards used in their systems.
- Abstract(参考訳): 協調型マルチエージェント強化学習(marl)では,学習の促進と収束の安定化のために適切な報酬信号の設計が重要な課題である。
グローバル報酬信号は、貢献を区別することなく、すべてのエージェントに同じグローバル報酬を割り当て、一方、ローカル報酬信号は個々の行動のみに基づいて各エージェントに異なるローカル報酬を提供する。
前者は怠け者のエージェントを奨励するかもしれないし、後者は利己的なエージェントを生み出すかもしれない。
本稿では,パケットルーティング環境に基づく協調型MARLにおける報酬設計問題について検討する。
まず、上記の2つの報酬信号が最適以下のポリシーを生成する傾向があることを示す。
そして、いくつかの観察と考察に触発されて、より優れたポリシーを学ぶために、既成の報奨信号の混合を設計する。
最後に,混合報酬信号を適応信号に変換し,実験の最良の結果を得る。
その他の報奨信号についても述べる。
報酬デザインは、RL、特にMARLにおいて非常に基本的な問題であるため、MARLの研究者がシステムで使われる報酬を再考できることを願っている。
関連論文リスト
- Reinforcement Learning from Bagged Reward: A Transformer-based Approach
for Instance-Level Reward Redistribution [48.92144929307152]
強化学習(RL)では、エージェントの動作毎に即時報奨信号を生成する。
多くの実世界のアプリケーションでは、即時報酬信号はエージェントによって取得できない。
本稿では,各バッグ内の文脈ニュアンスと時間的依存関係を自己認識機構を用いて解釈するトランスフォーマーベースの報酬モデルReward Bag Transformer (RBT)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Agent-Time Attention for Sparse Rewards Multi-Agent Reinforcement
Learning [36.93626032028901]
スパースと遅延した報酬は、単一のエージェント強化学習に挑戦する。
本稿では,スパースと遅延報酬を再分配するための補助的損失を持つニューラルネットワークモデルであるエージェント・タイム・アテンション(ATA)を提案する。
論文 参考訳(メタデータ) (2022-10-31T17:54:51Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Agent-Temporal Attention for Reward Redistribution in Episodic
Multi-Agent Reinforcement Learning [9.084006156825632]
本稿では,報酬の時間的再分配を学習し,報酬信号の高密度化を実現する手法の開発に焦点をあてる。
本稿では,これら2つの課題に対処するために,エピソード型マルチエージェント強化学習(AREL)におけるリワード再分配のためのエージェント・テンポラル・アテンションを紹介する。
ARELは、現在最先端の3つの報酬再分配方法と比較して、Particle Worldの報酬が増加し、StarCraftの勝利率が向上した。
論文 参考訳(メタデータ) (2022-01-12T18:35:46Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。